导读

AIGC(AI Generated Content),即经过人工智能办法生成内容,是当时深度学习最热门的方向之一。其在绘画、写作等场景的运用也一向层出不穷,其间,AI绘画是大家重视和体会较多的方向。

Diffusion系列文生图模型可以完成AI绘画运用,其一经推出就受到广泛重视,敞开了一波“全民调教AI作画”的潮流,激起了很多的运用需求。与此一起,百度推出的常识增强跨模态大模型——文心ERNIE-ViLG 2.0在 AI 作画范畴取得新打破。该模型在文本生成图画公开威望评测集MS-COCO和人工盲评上均超越了Stable Diffusion、DALL-E 2等模型,当时在该范畴取得了最好的作用,在语义可控性、图画清晰度、中国文化了解等方面均展现出了显著的优势。

开发者和科技爱好者可以将文心 ERNIE-ViLG 2.0 API (wenxin.baidu.com/ernie-vilg)灵敏方便地集成到产品中。一起,根据文心ERNIE-ViLG 2.0大模型,百度也推出AI艺术与构思辅佐渠道——文心一格(yige.baidu.com),以满足更多的人在AI作画方面的需求。

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先
文心一格模型作用图~

AI绘画模型推理算力及显存需求随图画分辨率增大而指数级添加,一起图画生成需要循环采样数十次,工业落地动辄需要昂扬本钱的布置集群,严重阻碍了AIGC模型大规模商业化落地。为此,百度飞桨一向致力于大模型的练习、紧缩、推理端到端优化,完成低本钱的模型布置上线,助力AIGC模型快速工业落地。

飞桨深度优化的Stable Diffusion模型,在单卡NVIDIA A100(80G) 上推理速度和显存利用率全面超越同类产品,取得业界第一的抢先优势。百度自研中文AI绘画ERNIE-ViLG模型,在昆仑芯 R200(32GB) 卡上推理,全面超越同系列干流推理卡,并已成功批量布置于文心一格构思渠道。

GPU推理功用数据

下图展现了分别运用PaddlePaddle、TensorRT、AITemplate和Diffusers(PyTorch)4种深度学习结构或推理引擎对Stable Diffusion进行推理时的功用体现。可以看出,根据PaddlePaddle对Stable Diffusion进行推理时,512*512图画生成速度68.2 iters/s,完成 0.76s 出图。其推理速度是 Diffusers(PyTorch)的4倍,比TensorRT最优速度快7.9%,一起显存占用仅为TensorRT的43%。

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先
又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

昆仑芯 R200 功用数据

昆仑芯 R200 功用数据在dpm-25steps算法下,生成1024*1024图画时的推理速度比较同才能的干流推理卡快20%。一起,R200具有32G显存,可以生成更高分辨率的图片,可以推理更大的模型,为用户带了高性价比的选择。

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

不同硬件跑ERNIE-ViLG的推理速度及显存占用对比

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先
飞桨Stable Diffusion 模型作用图

快速体会

Stable Diffusion练习推理全流程已在飞桨分散模型工具箱中开源

  • 参阅链接

github.com/PaddlePaddl…

一起,对于飞桨Stable Diffusion在GPU和 昆仑芯上的高功用布置,FastDeploy布置工具现已提供了开箱即用的布置体会

  • 参阅链接

github.com/PaddlePaddl…

与此一起,随着大模型运用的不断出圈,AIGC相关的运用落地需求也不断激增,因而,百度百舸联合飞桨团队将飞桨训推大模型的才能优势与AI加快组件AIAK(AI Accelerate Kit)完美交融,构成全新产品“飞桨云原生大模型开发工具”,显著提升了云用户大模型使命的开发和布置功率,并加快了生成式AI的工程化落地。作为业界首个经过全流程验证的大模型开发工具,飞桨云原生大模型开发工具不只具有更极致的功用,还可以让开发者体会到千亿大模型的的分布式练习和推理功用。

备注阐明

  • 百度百舸

AI异构核算渠道,包括AI核算、AI存储、AI加快、AI容器四大中心套件,具有高功用、高弹性、高速互联、高性价比等特性。充分汲取了百度异构核算渠道多年的技能积累,深度交融引荐、无人驾驶、生命科学、NLP等场景的实践经验,能为AI场景提供软硬一体解决计划,加快AI工程化落地。

  • AIAK

结合飞桨与百度云百舸全体计划优势联合推出的AI加快套件,用来加快根据飞桨等深度学习结构开发的AI运用,能极大提升分布式练习和推理的功用,大幅添加异构资源运用功率。

  • 飞桨云原生大模型开发工具

业界首个经过全流程完好验证的大模型开发工具,支撑GPT-3、Bloom、Stable Diffusion等多个大模型练习、微调、紧缩、推理的流畅开发体会。

01 功用优化中心解读

飞桨原生推理库Paddle Inference的抢先作用、根据飞桨结构抢先的架构规划和针对Stable Diffsuion模型的深度优化,首要体现在如下几个方面:

Flash Attention

飞桨一向致力于大模型推理优化,支撑多种通用Transformer类结构的高功用推理优化。在Stable Diffusion模型推理中,飞桨集成的高功用的Flash Attention kernel,经过将attention中的softmax核算进行拆解、分片核算,很多削减推理过程中self-attention和cross-attention核算对显存的拜访次数,一起完成了推理加快和显存优化。

Norm交融

Norm是Stable Diffusion中U-Net常用算子,首要分为LayerNorm和GroupNorm。LayerNorm和GroupNorm算子作为批规约运算,可以很好地和前后的elementwise类型、激活类型算子进行交融,消除算子间的显存拜访。飞桨对LayerNorm和GroupNorm与前后算子的4种不同pattern进行了交融,共交融了93个Norm结构,提升了3%的推理功用。

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

混合Layout核算

经过对模型张量排布匹配优化,支撑不同的Layout消除和兼并U-Net中的转置操作,提高了推理速度一起也能降低了运行显存占用,共削减了32次转置操作,带来了3~4%的推理功用提升。

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

Scheduler优化

对PPDiffusers库中的scheduler运算逻辑进行了从头整合梳理,将scheduler.step中的GPU算子发射数量由约12个减小至7个,一起经过参数预核算的办法,消除了采样循环中scheduler运算的CPU核算以及GPU同步开销。

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

推理显存优化

经过飞桨结构的算子交融引擎处理,Stable Diffusion模型中U-Net模型的独立算子数量削减60%,显存占用下降27%。针对U-Net模型的Layout优化消除了转置变换带来的额外显存消耗,可以使全体显存占用降低约19%。一起,针对ERNIE-ViLG 2.0文心AI作画大模型,飞桨结构提供了推理workspace复用技能,使ERNIE-ViLG 2.0模型显存占用下降37%,极大降低了ERNIE-ViLG 2.0文心AI作画大模型的布置本钱。

根据飞桨原生推理库Paddle Inference的高功用架构规划,结合上述优化点,飞桨Stable Diffusion模型能完成在单卡80G A100(SXM4)上,512*512分辨率生成图画(50 iters)推理时延0.76s,推理速度到达68.2 iters/s,显存占用4.6G,显存占用方面和速度方面均为当时业界最优作用。

02 后续作业

飞桨在继续推动AIGC模型、AI对话模型等大模型的优化,结合飞桨结构训推一体的中心才能,发布更多练习、紧缩、推理端到端优化的高功用工业级大模型,并继续打磨布置端到端计划,助力大模型更全面工业化,欢迎各位开发者继续重视或反馈需求和主张。

——END——

引荐阅读:

图片动画化运用中的动作分解办法

功用渠道数据提速之路

采编式AIGC视频生产流程编排实践

百度工程师闲谈视频了解

百度工程师带你了解Module Federation

巧用Golang泛型,简化代码编写