击败Stable Diffusion XL，商汤绘画大模型出手即大作，论文公开、免费试玩

前语商汤大模型团队提出的文生图大模型RAPHAEL，能够生成具有高度艺术风格或许拍摄风格的图片，速度极快。

本文转载自机器之心

仅用于学术共享，若侵权请联络删去

欢迎重视大众号CV技能攻略，专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

CV各大方向专栏与各个布置结构最全教程整理

【CV技能攻略】CV全栈辅导班、根底入门班、论文辅导班全面上线!!

自从 2022 年开始，以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区，AI 大模型也走进了大众的视野。

可是，现有的绝大部分模型依然做不到生成高质量且契合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL，能够生成具有高度艺术风格或许拍摄风格的图片，并且生成速度极快，并且在各项测验上打败了 Stable Diffusion XL，DALL-E 2，DeepFloyd 等模型。

击败Stable Diffusion XL，商汤绘画大模型出手即大作，论文公开、免费试玩

论文地址：arxiv.org/pdf/2305.18…

该研讨还供给了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接，能够在 miaohua.sensetime.com/zh-CN/ 中免费试玩（留意不要选错模型了）。同时，研讨者也设置了反应按钮（在生成图的旁边）来帮他们不断优化，希望我们能够活跃体验并进行反应。

作用展现

更多作用展现：

办法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域，用不同的 expert 来处理不同的区域，最后再交融。

Time-MoE 模块使得模型能够在不同的 timestep 上挑选不同的 expert；这些 MoE 事实上组成了一系列的 diffusion path，用来画某一类名词，动词，或许形容词。这些词的 diffusion path 都能够被 XGBoost 算法分开，证明了每一个 path 担任一个词。如下图所示：

Edge-supervised learning 运用物体的轮廓纹理来监督 attention 模块的学习，协助模型更好的学习到图片的结构信息。

该研讨也做了充沛的消融实验来验证这三个模块的作用，详细可见论文的正文部分。研讨者运用了清洗后的 LAION-5B 以及一些内部数据集来练习 RAPHAEL，LAION-5B 的清洗计划参考了 Stable Diffusion，超参数文中都有供给。同时，为了使得网络能够生成任意长宽比的图片，受到方针检测范畴的启发，研讨者提出了多标准练习：即把不同标准的图，根据这一标准的图的数量，输入不同的 GPU 练习。详细的网络结构见下图：

实验成果

该研讨首先在 FID 进步行了测验，FID 是一个衡量图片生成质量和多样性的方针，常常被用于评测生成模型的才能，实验在这一方针上打败了如 Stable Diffusion，DALL-E 2 等模型，到达 6.61。

此外，研讨者同时也根据人类点评给出了一些方针，结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL，DeepFloyd，文心一格以及 DALL-E 2，如下图所示：

一些小技巧

或许很多读者没有练习过怎么写文生图的 prompt，因此本文也供给了描述词优化的功用，能够将简略的 prompt 扩展成能得到优异作用的 prompt。当然，一些国外的网站也供给了一些优异的 prompt 库：

lexica.art/
www.midjourney.com/app/feed/
app.prompthub.studio/

同时建议我们把步数拉到 100，图片质量会更佳。

欢迎重视大众号CV技能攻略，专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技能文档】《从零建立pytorch模型教程》122页PDF下载

QQ沟通群：470899183。群内有大佬担任解答我们的日常学习、科研、代码问题。

其它文章

中科院自动化所发布FastSAM | 精度适当，速度提高50倍！！！

大核卷积网络是比 Transformer 更好的教师吗？ConvNets 对 ConvNets 蒸馏奇效

MaskFormer：将语义切割和实例切割作为同一使命进行练习

CVPR 2023 VAND Workshop Challenge零样本反常检测冠军计划

视觉魔法师：开启语义切割的奇幻之旅

沈春华团队最新 | SegViTv2对SegViT进行全面升级，让根据ViT的切割模型更轻更强

刷新20项代码使命SOTA,Salesforce提出新式根底LLM系列编码器-解码器Code T5+

或许95%的人还在犯的PyTorch过错

从DDPM到GLIDE：根据分散模型的图画生成算法发展

CVPR最佳论文颁给自动驾驶大模型！中国团队榜首单位，近10年三大视觉顶会首例

最新轻量化Backbone | FalconNet汇聚所有轻量化模块的优点，成果最强最轻Backbone

ReID专栏（二）多标准设计与应用

ReID专栏（一）使命与数据集概述

libtorch教程（三）简略模型建立

libtorch教程（二）张量的惯例操作

libtorch教程（一）开发环境建立：VS+libtorch和Qt+libtorch

NeRF与三维重建专栏（三）nerf_pl源码部分解读与colmap、cuda算子运用

NeRF与三维重建专栏（二）NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏（一）范畴布景、难点与数据集介绍

反常检测专栏（三）传统的反常检测算法——上

反常检测专栏（二）：点评方针及常用数据集

反常检测专栏（一）反常检测概述

BEV专栏（二）从BEVFormer看BEV流程（下篇）

BEV专栏（一）从BEVFormer深入探求BEV流程（上篇）

可见光遥感图画方针检测（三）文字场景检测之Arbitrary

可见光遥感方针检测（二）首要难点与研讨办法概述

可见光遥感方针检测（一）使命概要介绍

TensorRT教程（三）TensorRT的装置教程

TensorRT教程（二）TensorRT进阶介绍

TensorRT教程（一）初度介绍TensorRT

AI最全材料汇总 | 根底入门、技能前沿、工业应用、布置结构、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉沟通群

聊聊计算机视觉入门

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

击败Stable Diffusion XL，商汤绘画大模型出手即大作，论文公开、免费试玩

近期文章

近期评论