近日,由阿里云联合南京大学团队编撰的关于 Fluid 开源项目架构立异论文被数据管理与数据库世界顶级会议 ICDE 2022 长文选用。

Fluid 架构创新论文被国际数据库顶会 ICDE 录用

ICDE(International Conference on Data Engineering,即世界数据工程会议)是电气与电子工程师协会(IEEE)的旗舰会议,和 SIGMOD、VLDB并 称数据管理与数据库领域的三大世界顶尖学术会议,当选中国计算机学会(CCF)引荐 A 类世界会议列表。

此次被选用的论文–《Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs》,针对云原生环境下运行深度学习练习作业往往面对 I/O 方面的功能应战,提出了新的数据集笼统和弹性加快体系架构,经过数据集特性主动优化的缓存引擎来加快数据的拜访。其作者主要来自阿里如此原生团队和南京大学计算机系。

Fluid(github.com/fluid-cloud… 是云原生计算基金会(CNCF)旗下的一个弹性数据编列和加快沙箱开源项目,是由阿里如此原生团队和南京大学一起建议,并投入很多精力保护的。其中心技能功能包括:屏蔽异构存储的数据集笼统、数据缓存主动弹性扩缩容、云上数据与使用协同编列等。自 2020 年开源以来,Fluid 项目发展迅速,积累 1000 余次 PR 提交,发布了 7 个版别,并于 2021 年 4 月正式当选云原生计算基金会,填补了 Kubernetes 生态中弹性数据缓存编列方面的空白,并进入世界 CNCF 全景图开源云原生编列调度软件层、被评为 2021 年度 OSCAR 尖峰开源项目。

在实际出产环境中,Fluid 已经帮助很多用户显著地提高 AI 模型练习功能,下降练习数据的管理复杂度。阿里如此原生团队将 Fluid 的中心思想和设计,作为云原生 AI 领域的重要一环实现和优化,并经过容器服务 ACK 的云原生 AI 套件产品供给服务。

曩昔几年,阿里云经过容器服务 ACK 在异构计算资源管理、AI 任务生命周期管理、AI 任务调度和加快、AI 练习数据加快等方面,进行了一系列云原生 AI 方向的持续实践和立异,为 AI 工程创立功率、计算资源利用率、AI 渠道建设速度等带来了突破性提高。这些立异除了在云上服务经过多种东西和解决方案为企业赋能之外,阿里如此原生团也将抢先的云原生 AI 技能框架反哺开源,与合作伙伴一起建议并保护开源项目 Fluid,并将其向云原生基金会 CNCF 捐献。现在,已有来自 10+知名企业的 140+ 贡献者,和 Fluid 社区一起推动国内云原生 AI 领域的技能立异与落地实践。

此次论文当选 ICDE,也代表阿里云在云原生容器技能领域持续深耕和不断立异的又一个结果,在此之前 Serverless 相关的去中心化快速镜像分发技能论文被 USENIX ATC’21 选用。2022 年 1 月,世界威望咨询机构 Forrester 发布《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》报告显示,阿里云进入全球公共云容器渠道”领导者”象限,这是中国云计算厂商首次进入该象限。

附论文信息

选用论文题目: Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs (ICDE 2022)

**作者:**顾荣,张凯,徐之浩,车漾,范斌,侯浩军,戴海鹏,易立,丁宇,陈贵海,黄宜华

**论文概述: **得益于云原生渠道供给的容器化与编列技能所具有的高弹性、低成本、灵活运维等优势,越来越多的用户开始在 以Kubenetes/Docker 技能为代表的容器云渠道上运行深度学习练习作业。然而,直接在云原生环境下运行深度学习练习作业往往面对 I/O 方面的功能应战,包括复杂的数据拜访和调优、难以动态匹配 GPU I/O 需求、以及跨作业的缓存数据资源共享低效等。针对上述问题,本文研究提出了一套依据 Fluid 的解决方案:一个面向云原生深度学习作业练习的数据集笼统和弹性加快体系。Fluid 经过供给一个 Fluid Dataset 的数据笼统屏蔽了底层异构的存储,并且经过一种面向数据集特性主动优化的缓存引擎来加快数据的拜访。进一步地,Fluid 还能够在作业练习过程中依据 I/O 需求的变化,动态调整缓存空间的巨细。最后,为了提高多作业履行的功能,Fluid 还能够依据跨作业缓存的使用语义优化作业调度履行次第,从而提高总体履行功能。相关场景试验标明,Fluid能够大幅提高主流和业界抢先的云原生调度体系的功能,并且对原体系无侵入性。

发布云原生技能最新资讯、汇集云原生技能最全内容,定期举行云原生活动、直播,阿里产品及用户最佳实践发布。与你并肩探究云原生技能点滴,分享你需求的云原生内容。

重视【阿里巴巴云原生】公众号,获取更多云原生实时资讯!