作者｜王䘵平（茶木）

跟着云原生技能的蓬勃开展和其日渐成熟的产业落地，云上机器学习正向大规模、工业化方向迅速挺进。

近期，Morphling 作为阿里巴巴开源的 KubeDL 其中一个独立的子项目，成为云原生核算基金会（CNCF）Sandbox 项目。旨在为大规模工业布置机器学习模型推理（model inference）服务，供给自动化的布置装备调优、测验和引荐，在 GPU 虚拟化与复用技能日趋开展成熟的大环境下，协助企业充分享受云原生优势，优化在线机器学习服务功能，下降服务布置本钱，高效地解决机器学习在产业实践布置中的功能和本钱挑战。此外，Morphling 项目相关学术论文 “Morphling: Fast, Near-Optimal Auto-Configuration for Cloud-Native Model Serving”，被 ACM Symposium on Cloud Computing 2021 (ACM SoCC 2021)接纳。

Morphling 原意是游戏 Dota 中的英豪“水人”，他可以依据环境要求，经过灵敏改变本身形状，优化战役表现。咱们期望经过 Morphling 项目，完成针对机器学习推理作业的灵敏、智能的布置装备改变，优化服务功能，下降服务布置本钱。

Morphling Github：github.com/kubedl-io/m…
Morphling 网站：kubedl.io/tuning/intr…

背景

云上机器学习的工作流，可以分为模型练习（model training）和模型推理（model serving）两部分：模型在离线练习、调优测验完成之后，会以容器的方式布置为在线运用，为用户供给不间断的高质量推理服务，例如在线直播视频中的目标物品辨认、在线语言翻译工具、在线图片分类等。例如，阿里巴巴内部的淘系内容交际渠道 Machine Vision Application Platform（MVAP），经过在线机器学习推理引擎，支撑淘系直播商品亮点辨认、直播封面图去重、逛逛图文分类等事务。依据英特尔的数据，大规模推理 (“Inference at Scale”) 时代将至：到 2020 年，推理与练习周期比率超越 5:1；亚马逊的数据显现，2019 年亚马逊 AWS 在模型推理服务上的基础设施开支，占到其机器学习使命总开支的 90% 以上。机器学习推理已经成为人工智能落地和“变现”的要害。

云上推理使命

推理服务本身是一种特别的 long running 微服务形状，跟着云上推理服务日趋增加的布置体量，其本钱和服务功能，成为至关重要的优化指标。这要求运维团队对推理容器，在布置前进行合理的装备优化，包括硬件资源装备、服务运转参数装备等。这些优化装备，在和谐服务功能（例如呼应时刻、吞吐率）和资源运用功率中，起到至关重要的效果。在实践中，咱们的测验发现，不同的布置装备会带来高达十几倍的吞吐率/资源运用率的距离。

咱们依托阿里许多的 AI 推理服务经历，首先总结了推理事务，相关于传统服务布置的装备有以下特性：

运用昂贵的显卡资源，但显存用量低：GPU 虚拟化与分时复用技能的开展和成熟，让咱们有机会在一块 GPU 上一起运转多个推理服务，明显下降本钱。与练习使命不同，推理使命是运用练习完善的神经网络模型，将用户输入信息，经过神经网络处理，得到输出，进程中只触及神经网络的前向传输（Forward Propagation），对显存资源的运用需求较低。相比之下，模型的练习进程，触及神经网络的反向传输（Backward Propagation），需求存储许多中心成果，对显存的压力要大许多。咱们许多的集群数据显现，分配给单个推理使命整张显卡，会形成相当程度的资源浪费。但是如何为推理服务挑选合适的 GPU 资源标准，尤其是不可紧缩的显存资源，成为一个要害难题。
功能的资源瓶颈多样：除了 GPU 资源，推理使命也触及复杂的数据前处理（将用户输入处理成符合模型输入的参数），和成果后处理（生成符合用户认知的数据格式）。这些操作一般运用 CPU 进行，模型推理一般运用 GPU 进行。关于不同的服务事务，GPU、CPU 以及其他硬件资源，都可能成为影响服务呼应时刻的主导因素，然后成为资源瓶颈。
此外，容器运转参数的装备，也成为事务布置人员需求调优的一个维度：除了核算资源外，容器运转时参数也会直接影响服务 RT、QPS 等功能，例如容器内服务运转的并发线程数、推理服务的批处理巨细（batch processing size）等。

最佳化推理服务布置装备

以 Kubernetes 为干流的云原生技能，正在以丰厚的形状被广泛用于新的运用负载，将机器学习使命（包括练习和推理）构建在 Kubernetes 上，并完成安稳、高效、低本钱的布置，成为各大公司推动AI项目、服务上云的要点和要害。Kubernetes 结构下的推理容器装备，业界还在不断探究与尝试。

最常见的形式是依据人为经历，手动装备参数，简单但低效。实践情况常常是：服务布置人员站在集群办理者的视点，为了确保服务质量，倾向于装备较多的资源冗余，在安稳性和功率之间挑选牺牲后者，形成许多资源浪费；或对运转参数直接采用默认值进行装备，丢失了功能优化机会。
另一个可选的方案是，依据资源前史水位画像，进一步细化优化资源装备。但咱们的观察和实践发现，日常资源水位不能表现服务压测时的流量顶峰，无法评价服务才能上限；其次，关于新上线的事务，普遍缺乏牢靠的前史水位信息可供参考；别的，由于机器学习结构的特性，GPU 显存的前史用量一般不能正确反映运用对显存的实在需求；终究，关于容器内部程序运转参数的调优，从前史数据的视点短少满足的数据支撑。

总体来说，虽然在更通用的超参调优方面，Kubernetes 社区有一些自动化参数引荐的研讨和产品，但业界短少一款直接面向机器学习推理服务的云原生参数装备体系。

咱们依托阿里许多的AI推理服务经历，总结发现，推理事务装备调优的痛点在于：

短少自动化功能测验、参数调优的结构：迭代式的手动调整装备-服务压测，给布置测验带来巨大人工负担，使这一方向在现实下成为不可能的选项。
安稳和非侵入式的服务功能测验流程：在出产环境下对在线服务直接进行布置测验，会影响用户体会。
要求高效的参数组合调优算法：考虑到需求装备的参数数量增多时，联合调试多维度参数的组合优化装备，对调优算法提出了更高的功率要求。

Morphling

针对上述难题，阿里巴巴云原生集群办理团队和开发并开源了依据 Kubernetes 的机器学习推理服务装备结构——Morphling，将参数组合调优全流程自动化，并结合高效的智能化调优算法，使推理事务的装备调优流程，可以高效地运转在 Kubernetes 之上，解决机器学习在产业实践布置中的功能和本钱挑战。

Morphling 对参数调优的进程进行了不同层次的云原生笼统，供给给用户简洁且灵敏的装备接口，将底层的容器操作、数据通信、采样算法、和存储办理封装在控制器中。详细来说，Morphling 的参数调优-功能压测，采用 experiment-trial 工作流程。

Experiment 作为最靠近用户的一层笼统，经过交互，由用户指定机器学习模型的存储方位、待调优的装备参数、测验数量上限等，定义一次详细的参数调优作业。
关于每个参数调优作业 experiment，Morphling 定义了另一层笼统：trial。Trial 封装了针对某一特定参数组合的一次功能测验流程，涵盖了底层的 Kubernetes 容器操作：每个 trial 中，Morphling 依据测验参数组合，装备并启动推理服务容器，检测服务的可用性和健康状况，并对服务进行压力测验，测量该装备下容器的服务功能，例如呼应时刻延迟、服务吞吐量、资源运用功率等。测验成果将存储在数据库中，并反馈给 experiment。
Morphling经过智能的超参调优算法，挑选少数装备组合进行功能测验（trial），每轮测验成果作为反馈，来高效挑选下一组待测参数。为了防止穷举方式的标准点采样，咱们采用贝叶斯优化作为画像采样算法的内部核心驱动，经过不断细化拟合函数，以低采样率（<20%）的压测开支，给出挨近最优的容器标准引荐成果。

经过这样迭代式的采样-测验，终究反馈给事务布置人员优化的装备组合引荐。

一起，Morphling 供给了管控套件：Morphling-UI，方便事务布置团队在可界面化上，经过简单易用的操作，发起推理事务装备调优 experiment、监控调优进程、比较调优成果。

Morphling 在淘系内容交际渠道中的实践

阿里巴巴内部丰厚的在线机器学习推理场景和许多的推理服务实例需求，为 Morphling 的落地验证供给了第一手的落地实践和测验反馈。其中，阿里淘系内容交际渠道Machine Vision Application Platform（MVAP）团队，经过在线机器学习推理引擎，支撑淘系直播商品亮点辨认、直播封面图去重、逛逛图文分类等事务。

在 2020 年双十一期间，咱们经过 Morphling 对 AI 推理容器进行了标准测验、优化，寻觅功能和本钱之间的最优解，一起算法工程团队进而对这些资源耗费型的推理模型，例如淘系视频亮点服务，做出针对性的模型量化、剖析，并从 AI 模型设计视点进行优化，以最少的资源支撑了双十一的洪峰流量，一起确保事务的功能不下降，极大的进步 GPU 利用率和下降了本钱。

学术探究

为了进步推理服务参数调优进程的功率，阿里巴巴云原生集群办理团队，针对推理事务的特性，进一步探究了运用元学习（meta-learning）和小样本回归（few-shot regression）完成更高效的、低采样本钱的装备调优算法，应对实践业界“快速、小样本采样、低测验本钱”的调优要求，以及面向云原生且自动化的调优结构。相关学术论文 “Morphling: Fast, Near-Optimal Auto-Configuration for Cloud-Native Model Serving”，被ACM Symposium on Cloud Computing 2021 (ACM SoCC 2021)接纳。

近年，云上 AI 推理使命的优化布置相关主题活泼在各大云核算、体系相关的学术期刊和会议，成为学术界探究的抢手。探究的主题主要包括，AI 模型的动态挑选、布置实例的动态阔缩容、用户访问的流量调度、GPU 资源的充分利用（例如模型动态加载、批处理巨细优化）等。但是，从大规模业界实践动身，最佳化容器等级的推理服务布置这一问题的研讨，尚属首次。

算法方面，功能调优作为经典的超参数优化（hyper-parameter tuning）问题。传统超参调优办法例如贝叶斯优化，难以面临高维度（多装备项）且大查找空间的调优问题。例如，关于 AI 推理使命，咱们在 CPU 核数、GPU 显存巨细、批处理 batch size、GPU 类型这四个维度（装备项）进行“组合优化”式的超参调优，每个装备项有 5～8 个可选参数。这样，组合情况下的参数查找空间就高达 700 个以上。依据咱们在出产集群的测验经历积累，关于一个 AI 推理容器，每测验一组参数，从拉起服务、压力测验、到数据呈报，需求耗时几分钟；与此一起，AI 推理事务的种类繁复，更新迭代频繁，布置工程师人力有限，测验集群本钱有限。要在这样大的查找空间内，高效地测验出最优的装备参数，对超参调优算法提出了新的挑战。

在这篇论文中，咱们的核心观察是，关于不同的 AI 推理事务，其需求优化各项的装备（例如 GPU 显存、批处理巨细）关于容器的服务功能（例如 QPS）影响，“趋势安稳且类似”，表现在可视化的“装备-功能”曲面上，表现为，不同AI推理实例，“装备-功能”曲面的形状类似，但装备对功能的影响程度和要害节点，在数值上各不相同：

上图可视化了三种 AI 推理模型，其<CPU 核数、GPU显存巨细>的二维装备，对容器服务吞吐量 RPS 的影响。论文提出，运用 Model-Agnostic Meta-Learning（MAML）对这些共性进行提早学习，练习出元模型，然后对新的 AI 推理功能测验，快速找到曲面中的要害节点，以元模型动身，作出小样本下（5%）的准确拟合。

总结

Morphling 依据的 Kubernetes 机器学习推理服务装备结构，结合“快速、小样本采样、低测验本钱”的调优算法，完成了面向云原生的自动化且安稳高效的 AI 推理布置调优流程，更快地赋能布置流程的优化和迭代，加快机器学习事务运用的上线。Morphling 和 KubeDL 的结合，也会使得 AI 从模型练习，到推理布置的装备调的优体会更为流畅。

Reference

Morphling Github：
github.com/kubedl-io/m…

Morphling 网站：
kubedl.io/tuning/intr…

KubeDL Github:
github.com/kubedl-io/k…

KubeDL 网站：
kubedl.io/

戳原文，检查 Morphling 项目 github 主页！

近期抢手

#2021·云栖大会定档# 扫码报名免费抽好礼！

扫描下方【云栖大会报名二维码】完成报名并截图，添加云原生小助手微信号（AlibabaCloud888）发送截图即可获得抽奖机会！快来试试吧~

云栖大会报名二维码

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Morphling：云原生部署 AI ，如何把降本做到极致？

背景

云上推理使命

最佳化推理服务布置装备

Morphling

Morphling 在淘系内容交际渠道中的实践

学术探究

总结

Reference

近期抢手

近期文章

近期评论

Morphling：云原生部署 AI ， 如何把降本做到极致？

背景

云上推理使命

最佳化推理服务布置装备

Morphling

Morphling 在淘系内容交际渠道中的实践

学术探究

总结

Reference

近期抢手

近期文章

近期评论

Morphling：云原生部署 AI ，如何把降本做到极致？