PAI-Diffusion模型来了！阿里云机器学习团队带您徜徉中文艺术海洋

敞开生长之旅！这是我参加「日新计划 12 月更文挑战」的第7天，点击检查活动详情

作者：汪诚愚、段忠杰、朱祥茹、黄俊

导读

近年来，跟着海量多模态数据在互联网的爆炸性增加和练习深度学习大模型的算力大幅提高，AI生成内容（AI Generated Content，AIGC）的运用呈现出爆发性增加趋势。其间，文图生成（Text-to-image Generation）任务是最流行的AIGC任务之一，旨在生成与给定文本对应的图画。典型的文图模型例如OpenAI开发的DALL-E和DALL-E2、Google提出的Parti和Imagen、基于分散模型的Stable Diffusion和Stable Diffusion2.0等。

但是，上述模型一般不能用于处理中文的文图生成需求，并且上述模型的参数量巨大，很难被开源社区的广大用户直接运用。在先前文图生成模型（看这儿）作业堆集之上，阿里云机器学习（PAI）团队进一步开源了PAI-Diffusion系列模型，包含一系列通用场景和特定场景的文图生成模型，例如古诗配图、二次元动漫、魔幻实际等。这些模型的Pipeline除了包含规范的Latent Diffusion Model，还集成了PAI团队先前提出了中文CLIP跨模态对齐模型（看这儿），及图画超分模型，使得模型能够生成符合中文文本描述的、各种场景下的高清大图。

本⽂简要介绍PAI-Diffusion模型及其体会方法。

Diffusion技术概述

咱们的模型是基于一个基于隐式分散模型（Latent Diffusion Model, LDM）的文图生成模型。接下来，咱们简要地介绍LDM的原理以及技术改进。

Latent Diffusion Model原理

分散模型有两个进程，分别为分散进程和逆分散进程。如下图，分散进程为从左到右的进程 $（ D a t a \to N o i s e ）$ ，表明对图片逐渐增加噪声。逆分散进程为从右到左的进程 $（ N o i s e \to D a t a ）$ ，表明从高斯噪声中逐渐去噪，恢复出原图。

分散模型中的噪声是在像素空间进行的计算的，维度与图画一致，由此导致加噪和去噪进程的时间和内存耗费会非常大。Latent Diffusion Model运用自动编码器（Auto Encoder）将图画数据从高维像素空间表明 $（ x ）$ 转换到低维潜空间表明 $（ z ）$ ，之后在低维空间进行去噪生成，大大降低时间和内存耗费。

文本引导的Diffusion模型首要包含两部分：文本编码器(Text Encoder)和U-Net；其间U-Net用于模拟噪声的分布，文本编码器把输入文本转换成U-Net能够理解的空间编码，引导噪声的采样以生成符合文本描述的图片。文本作为条件输入，和时间步长 $t$ 一起，以简略连接或许交叉注意力的方法，辅导 $z$ 的去噪。推理时，由Auto Encoder将 $T$ 时间生成的表明 $z$ 转换为像素空间的表明 $x$ ，即可得到像素级别的图片。

StableDiffusion

StableDiffusion是在LAION-5B数据集子集上练习的一个LDM，能够在消费级GPU运转，生成 $512512$ 的图画仅需要几秒。现在StableDiffusion公布了v1和v2两个版本。StableDiffusion1.0首要支撑文本引导的图画生成（text-to-img)、草图引导的图画生成(sketch-to-img)。最近发布的StableDiffusion2.0改进了文本编码器，并且默许生成的图画分辨率也提高至 $768768$ ，可支撑 $20482048$ 或更高。此外，StableDiffusion2.0增加了新的特性，支撑深度图引导的图画生成(depth-to-img)和文本引导的图画编辑(text guided inpainting)。

PAI-Diffusion模型详解

因为现有Diffusion模型首要运用英文数据进行练习，如果直接运用机器翻译将英文数据翻译成中文进行模型练习，因为中英文在文明和表达上具有很大的差异性，产出的模型一般无法建模中文特有的现象。此外，通用的StableDiffusion模型因为数据源的限制，很难用于生成特定领域、特定场景下的高清图片。PAI-Diffusion系列模型由阿里云机器学习（PAI）团队发布并开源，除了能够用于通用文图生成场景，还具有一系列特定场景的定制化中文Diffusion模型，包含古诗配图、二次元动漫、魔幻实际等。在下文中，咱们首先介绍PAI-Diffusion的模型Pipeline架构，包含中文CLIP模型、Diffusion模型、图画超分模型等。

模型Pipeline架构

PAI-Diffusion模型Pipeline如上所示，分为四部分：

Text Encoder：把中文文本输入转化成 Embedding 向量，咱们采用EasyNLP中文CLIP跨模态对齐模型（看这儿）的Text Transformer作为Text Encoder；
Latent Diffusion Model：在 Latent 空间中根据文本输入处理随机生成的噪声；
Auto Encoder：将 Latent 空间中的张量还原为图片；
Super Resolution Model：提高图片分辨率，这儿咱们运用ESRGAN作为图画超分模型。

咱们在运用Wukong数据会集的两千万中文图文数据对 Latent Diffusion Model部分进行了约 20 天的预练习，随后在多个下流数据会集进行了微调。

多场景艺术画鉴赏

下面咱们展现几个不同场景下PAI-Diffusion模型的艺术画生成效果。

通用场景

古诗配图

二次元动漫

艺术画

魔幻实际

真实事务场景示例

除了艺术画生成，PAI-Diffusion模型也能广泛地运用在各个真实事务场景中，以下咱们给出在电商和美食场景下的文图生成效果。

电商商品

国际美食

轻松体会PAI-Diffusion模型

PAI-Diffusion模型能够经过多个途径进行体会。咱们在阿里云机器学习AI才能中心上展现了更多不同场景下模型生成的高清大图。阿里云机器学习产品PAI-DSW（Data Science Workshop）供给了交互式的开发体会，便利用户经过调用Python API访问这些模型。此外，为了便利开源社区用户的体会，咱们也在HuggingFace Space上展现了多个PAI-Diffusion模型的运用。

阿里云机器学习AI才能中心

阿里云机器学习AI才能中心供给了场景多样的AI实操事例，包含图画智能、自然语言处理、视频智能、多模态等各个领域的事例。咱们也上架了PAI-Diffusion模型文图生成的功用，供给了更多不同场景下模型生成的高清大图。用户能够在这儿体会AI才能中心的文图生成功用，示例拜见下图。

阿里云机器学习PAI-DSW

PAI-DSW（Data Science Workshop）是阿里云机器学习平台PAI开发的云上IDE，面向不同水平的开发者，供给了交互式的编程环境（文档）。在DSW Gallery中，供给了各种Notebook示例，便利用户轻松上手DSW，搭建各种机器学习运用。咱们也在DSW Gallery中上架了运用PAI-Diffusion模型进行中文文图生成的Sample Notebook，欢迎大家体会！

HuggingFace Space

为了便利开源社区用户的体会，咱们在HuggingFace Space上展现了多个PAI-Diffusion模型的文图生成运用。以国际美食为例（huggingface.co/spaces/alib…），用户只需要输入或许选择菜品名称作为输入，就能够得到模型生成的高清大图，示例拜见下图。

未来展望

在这一期的作业中，咱们公开了一系列PAI-Diffusion模型，支撑各种场景下的中文文图生成功用。在未来，咱们计划在EasyNLP框架（github.com/alibaba/Eas…）中集成这些模型的Checkpoint，并且供给简洁高效的练习接口，便利开源社区用户在资源有限情况下进行少量领域相关的微调，进行各种艺术创作，敬请期待。咱们也将致力于PAI-Diffusion模型的优化战略，包含模型推理速度优化、生成图片质量提高和支撑更为复杂的图画编辑功用。此外，阿里云机器学习PAI团队也在持续推动中文多模态模型的自研作业，欢迎用户持续重视咱们，也欢迎参加咱们的开源社区，共建中文NLP和多模态算法库！

Github地址：github.com/alibaba/Eas…

Reference

Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Bjrn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. ICML 2021
Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, Chunjing Xu, Hang Xu. Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework. arXiv
Ling Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Bin Cui, Ming-Hsuan Yang. Diffusion models: A comprehensive survey of methods and applications. arXiv

EasyNLP阿里灵杰回忆

阿里灵杰：阿里云机器学习PAI开源中文NLP算法框架EasyNLP，助力NLP大模型落地
阿里灵杰：预练习常识衡量竞赛夺冠！阿里云PAI发布常识预练习东西
阿里灵杰：EasyNLP带你玩转CLIP图文检索
阿里灵杰：EasyNLP中文文图生成模型带你秒变艺术家
阿里灵杰：EasyNLP集成K-BERT算法，借助常识图谱实现更优Finetune
阿里灵杰：中文稀少GPT大模型落地 — 通往低成本&高性能多任务通用自然语言理解的关键里程碑
阿里灵杰：EasyNLP玩转文本摘要（新闻标题）生成
阿里灵杰：跨模态学习才能再升级，EasyNLP电商文图检索效果刷新SOTA
阿里灵杰：EasyNLP带你实现中英文机器阅览理解
阿里灵杰：EasyNLP发布交融语言学和现实常识的中文预练习模型CKBERT
阿里灵杰：当大火的文图生成模型遇见常识图谱，AI画像趋近于真实国际

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。