没有大招的火山引擎，拿下70%大模型玩家

鱼羊发自凹非寺
量子位 | 大众号 QbitAI

有没有在开发大模型？在学习。

什么时候发布大模型？没方案。

当被问起自研大模型，字节跳动副总裁杨震原口风甚严。但席卷全球的这场大模型竞逐战，没有人会自动抛弃阵地。

最新头绪，在上海露出端倪。

火山引擎对外的最新技能、产品发布动作中，咱们发现：炼大模型的根底设施，不只现已在字节内部运转，还到了能够对外输出“技能秘籍”的阶段。

直观的数字，更能阐明状况：

抖音2022年最火特效「AI绘画」，便是在火山引擎机器学习渠道上练习而成。在练习场景下，依据Stable Diffusion的模型，练习时间从128张A100练习25天，缩短到了15天，练习性能提高40% 。

在推理场景下，依据Stable Diffusion的模型，端到端推理速度是PyTorch的3.47倍，运行时对GPU显存占用量下降60% 。

而就在全球最大云厂商AWS宣告，加入大模型竞赛，并且定位是“中立渠道”，会接入Anthoropic、StabilityAI等模型厂商的大模型之际，量子位也得悉：

火山引擎，也在以类似途径探索大模型的落地，做法是用“机器学习渠道+算力”为大模型企业提供AI根底设施。火山引擎总裁谭待透露，国内几十家做大模型的企业，七成现已在火山引擎云上。

大模型企业为什么会挑选火山引擎？咱们和火山引擎机器学习总监吴迪聊了聊。

大模型趋势，写在云核算的最新技能里

在AI方面，此番火山引擎重点说到了两个渠道：机器学习渠道和引荐渠道。

机器学习渠道

其间，机器学习渠道涉及当下科技圈最热的两个论题——巨大算力的调度问题，以及AI开发的功率问题。

先来看算力调度。

说到大模型年代，OpenAI首席执行官Sam Altman曾发表观点称，“新版摩尔定律很快就要到来，世界中的智能每18个月翻一倍”。

而这背后，模型练习开发所需求的算力规划，可想而知。

但用算力，实际上并不是一个纯堆硬件的事情。举个比如，如果机器学习结构跟底层的硬件是各自独立的一套，那在练习AI模型时，因为通讯推迟、吞吐量等问题，练习功率就无法最大化。

简略来说，便是很多算力会在这个过程中被浪费掉。

解决方法，是软硬一体。

吴迪介绍，火山引擎的自研DPU，将算力层和渠道层统一同来进行了整体优化。比如，将通讯优化的算法直接写到网卡硬件中，以下降推迟、削减拥塞。

测试数据闪现，火山引擎的通讯结构BytePS，在模型规划越大时，收益会越高。

而在AI开发功率方面，火山引擎推出了Lego算子优化。

具体而言，这一结构能够依据模型子图的结构，选用火山引擎自研高性能算子，完结更高的加速比。

前文说到的抖音特效练习功率的提高，就得益于此：

在推理场景下，使用Lego算子优化，能够将依据Stable Diffusion模型的端到端推理速度提高至66.14 it/s，是PyTorch推理速度的3.47倍，运行时GPU显存占用量下降60%。

在练习场景下，在128张A100上跑15天，模型即可练习完结，比其时最好的开源版别快40%。

目前，火山引擎这一套机器学习渠道，现已部署到了MiniMax的文本、视觉、声音三个模态大模型练习和推理场景中。

MiniMax联合创始人杨斌说，依托火山引擎机器学习渠道，MiniMax研发了超大规划的大模型练习渠道，高效支撑着三个模态大模型每天千卡以上的常态化稳定练习。在并行练习上完结了99.9%以上的可用性。除了练习以外，MiniMax也同步自研了超大规划的推理渠道，目前具有近万卡级别的GPU算力池，稳定支撑着每天上亿次的大模型推理调用。

有稳健的大模型根底设施，MiniMax从零开端自主完整地跑通了大模型与用户交互的迭代闭环，完结从月至周级别的大模型迭代速度，和指数级的用户交互增加。MiniMax和火山引擎一同为大模型练习搭建了高性能核算集群，一同致力于提高大模型练习的稳定性，保证了千卡练习的使命稳定运行数周以上。

从本年开端，MiniMax又和火山引擎在网络和存储上进行了更深入的优化合作，完结更低的网络推迟，将带宽利用率提高了10%以上。

吴迪坦言， “软硬一体、通讯优化、算子优化都不是新概念，火山引擎机器学习渠道也没有特别牛、特别超前的大招。咱们靠的便是务实谨慎地不断把细节做扎实，把重要技能锤炼到位，这样才干赢得客户的信赖。”

引荐渠道

机器学习渠道之外，这次在自家看家本领——引荐体系上，火山引擎对外拿出了引荐体系全套解决方案：从物料办理，到召回排序，再到作用剖析、A/B测试和模型算法，都能够开箱即用。

而作为产业界近年来落地最为成功的AI使用之一，在引荐领域，深度学习模型越来越大、越做越深的趋势，也早已闪现其间。

吴迪介绍，因为引荐是一个高度定制化的场景，每个人的爱好、画像都有独自的embedding，因而大规划稀疏模型很重要。

一起，因为实在世界在时间改变，因而背后又存在一重实时练习的应战。

这都对传统的深度学习结构提出了很大的应战。

为此，火山引擎不只将以上工程完结进行封装，推出了依据TensorFlow的机器学习训推一体结构Monolith，还拿出了针对智能引荐的高速GPU练习和推理引擎——Monolith Pro。

值得重视的是，Monolith Pro掩盖的场景包含：

针对要害场景的超大模型，使用高密度GPU进行超高速练习；
掩盖更多场景的模型，混合使用CPU+GPU高速练习。

吴迪进一步解说说，引荐模型需求做大做深，才干对很多事物之间的相关有更好的理解——这一点，如今现已在GPT引发的一系列现象上得到充沛验证。

因而在现在这个时间点，对于任何正在展开引荐广告业务的公司而言，高价值的数据是一方面，另一方面，找到练习更强、更大、更实时模型的方法，对整个体系进行智能化晋级，现已到了一个要害期。

所以，Monolith Pro又具体能完结怎样的作用？吴迪透露，依据Monolith Pro，抖音内部的某重要广告场景，本来一次广告练习需求15个月样本，练习时间为60小时，现在只需求5小时就能完结。

工程师能够做到上午启动练习，下午就能开A/B测试了（笑）。

大模型改写云核算规矩

由ChatGPT而起，在海内外一波波大模型的发布中被推至高潮，一场新的技能革新已然势不可挡。

云核算，作为一个早已深深与AI相关的业务，站立桥头，也最早面对着规矩被重新改写的境况。

跟着大模型能解决越来越多下流使命，如何用大模型，又成为了新的问题：无论是练习仍是推理，大模型都需求很强的根底设施支撑。

云核算成为了最便捷的上车途径。一起，云厂商们也势必要面向大模型，重塑自身云产品的面貌。

吴迪以为，作为一项技能，未来大模型会是百家争鸣的局面。丰厚的需求会催生出若干成功的模型提供商，深入满足千行百业的业务需求。

与此一起，大模型的使用也面对若干根底问题：

根底大模型或许还需求用更多高质量数据，做进一步的增量学习和finetune，才干真实在产业中落地使用。整个流程需求更为灵敏和易用。
大模型将成为大数据年代的“中央处理器”，它能够控制插件、接口，以及更丰厚的下流模型。大模型需求这些“手”和“脚”，才干进入咱们生活的方方面面。
跟着大模型使用的增多，数据安全和信赖将成为产业重视的焦点。
推理功率。大模型的练习本钱昂扬，但长期来看，全社会投入在大模型推理上的开支将逐步超越练习本钱。在微观上，能以更低单位本钱提供大模型相关服务的公司，将取得竞争优势。

但能够必定的是，大模型改造各行各业的浪潮已至。

有人正面迎战，有人从更底层的问题动身，测验破解新的问题和应战。

共同点是，大模型的潮头来得迅猛激烈，但在第一线迎候风暴的，从来不是没有准备之人。

现在，到了查验真实AI能力和积累的时间。至少在与大模型相伴相生的云核算领域，精彩才刚刚开幕。

—完—

@量子位追踪AI技能和产品新动态

深有感触的朋友，欢迎赞同、重视、共享三连’ᴗ’ ❤

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

没有大招的火山引擎，拿下70%大模型玩家

大模型趋势，写在云核算的最新技能里

机器学习渠道

引荐渠道

大模型改写云核算规矩

近期文章

近期评论