作者:周伟鹏、魏文哲、元毅

“运用阿里云容器服务 Knative 和 ECI 虚拟节点配合布置,在保证线上模型应对突发流量的稳定性大幅进步的一起,又使资源运用功率取得了明显的进步,极大的节省了资源本钱。”

— 数禾科技 AI 实验室

AI 渠道负责人周伟鹏

“数禾 DevOps 渠道 BetterCDS 集成了阿里云容器服务 Knative,支撑模型服务的多版别运转和弹性伸缩,在下降运转本钱的一起,也进步了服务的可用性,极大当地便了运维人员和开发人员。”

— 数禾科技基础架构研制部

工程功率组负责人 邓志

布景

数禾科技以大数据和技能为驱动,为金融机构供给高效的智能零售金融处理计划,服务银行、信任、消费金融公司、稳妥、小贷公司等持牌金融机构,事务包含消费信贷、小微企业信贷、场景分期等多个范畴,供给营销获客、危险防控、运营办理等服务。数禾科技经过自主开发的消费信贷产品,连接金融机构与普罗群众,赋能金融机构数字化转型,迎接中国消费晋级的大潮。

数禾科技 AI 模型服务 Serverless 容器化之旅

遇到问题

在危险办理事务中,依据公司的危险容忍度、危险偏好动摇以及阶段性事务目标需求针对公司客户进行危险特点的调整,这其中包含用户额度、定价、可借期限等相关要素。那么这不行避免的需求运用批量数据处理才能经过核算规矩来对很多用户做调额、调价等,当然,模型作为危险办理的重要组成部分也必不行少的会被运用至批量处理的动作中来。因而关于模型的核算才能就提出了很高的要求,包含核算速度、核算结果准确性、核算数据实时性等。

而当时的困扰地点是支撑模型核算的底层运用资源无法灵活且快速的依据恳求量来智能化调整机器资源支撑运算才能,这也是当时事务快速开展过程中亟待处理的痛点。一起,跟着模型在线推理服务数量的增加,数禾的模型服务也变得越来越庞大、臃肿,难以办理。这种状况不仅导致了资源糟蹋,还增加了维护和晋级的本钱。

基于以上的各种情况,咱们开端寻求新的技能架构计划,期望新计划能够具有随流量高效运用资源,下降模型服务本钱,一起最好具有版别办理功能,能够实现多版别一起供给服务,较小呼应的运维本钱。

处理计划

经过内部的交流与调研,咱们最终选择了基于 Knative 的 Serverless 服务计划,它具有依据恳求的扩缩容才能、答应 pod 缩容到 0 的冷启动才能以及多版别的办理才能。与此一起,因为数禾本身的技能架构都是布置在阿里云的底层资源上,而阿里云 ACK 又对 Knative 做了组件集成,能够支撑一键布置,极大的减小了咱们布置调试的时刻本钱

数禾科技 AI 模型服务 Serverless 容器化之旅

客户价值

经过对内部模型布置的 pipeline 进行改造后,目前数禾的所有新增模型均已经过 ACK + Knative 方式布置在线上供给服务,得益于 Knative 的多版别办理才能,咱们快速处理了模型的灰度发布和多版别并存的问题。一起加之基于恳求的主动扩缩容才能,在多个版别并存的情况下,并没有对资源发生额定的耗费,并且对晚上的谷时资源继续了很好的节省。

下图是咱们一个模型服务的资源耗费与恳求量的比照图,上图为 Pod 资源数量,下图为服务恳求量。由下图比照能够看出,整个服务资源的运用情况于服务恳求量保持高度一致,运用功率非常高。

数禾科技 AI 模型服务 Serverless 容器化之旅

查看大图:

img.alicdn.com/imgextra/i4…

关于上文说到的批量作业任务,虽然咱们已经具有了 Knative 的扩缩容才能,但依然需求在底层准备好足够的资源池来供模型进行扩容。但是在一天的大部分场景中这部分资源又是糟蹋的,关于这个问题,咱们经过在 Knative 中运用 ECI 虚拟节点来得到了很好的处理。

咱们对上线之后的模型服务进行了继续监控,比照运用之前的计划,模型服务在应对突发批量流量的稳定性取得大幅进步,一起资源的运用功率也取得了明显进步,节省本钱约 60%。

关于 Serverless

众所周知,Serverless 是一种云原生的开发模型,客户只需构建和运转运用、而无需办理保管运用地点的服务器。在实践实现上,IT 架构里仍是有服务器的,仅仅对从客户运用研制不行见了,服务器由云厂商保管和维护,用户只需求将代码打包成容器即可。跟着云原生技能的演进,以运用为中心,资源按需运用的 Serverless 技能逐渐成为干流。Gartner 猜测,2025 年将有 50% 以上的全球企业布置 Serverless。

Knative 是基于 Kubernetes 之上供给的一款开源 Serverless 运用结构,其目标便是制定云原生、跨渠道的 Serverless 容器编排标准,帮助您布置和办理现代化的 Serverless工作负载,打造企业级 Serverless 容器渠道。Knative 于 2021 年 11 月 2 日正式发布 1.0 版别,达到了一个重要的里程碑,跟着 2022 年 3 月 2 日加入到 CNCF,越来越多的开发者拥抱 Knative 。

阿里云容器服务从 Knative 前期版别开端产品化集成,继续跟进 Knative 社区功能迭代,并与容器服务 ACK、消息、存储、网络等云产品进行了全方位的融合,供给了出产等级的 Knative 才能。

点击此处了解更多阿里云 Knative 产品相关信息