前语 商汤大模型团队提出的文生图大模型RAPHAEL,能够生成具有高度艺术风格或许拍摄风格的图片,速度极快。

本文转载自机器之心

仅用于学术共享,若侵权请联络删去

欢迎重视大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

CV各大方向专栏与各个布置结构最全教程整理

【CV技能攻略】CV全栈辅导班、根底入门班、论文辅导班 全面上线!!

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了大众的视野。

可是,现有的绝大部分模型依然做不到生成高质量且契合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,能够生成具有高度艺术风格或许拍摄风格的图片,并且生成速度极快,并且在各项测验上打败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

论文地址:arxiv.org/pdf/2305.18…

该研讨还供给了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,能够在 miaohua.sensetime.com/zh-CN/ 中免费试玩(留意不要选错模型了)。同时,研讨者也设置了反应按钮(在生成图的旁边)来帮他们不断优化,希望我们能够活跃体验并进行反应。

作用展现

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

更多作用展现:

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

办法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再交融。

Time-MoE 模块使得模型能够在不同的 timestep 上挑选不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或许形容词。这些词的 diffusion path 都能够被 XGBoost 算法分开,证明了每一个 path 担任一个词。如下图所示:

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

Edge-supervised learning 运用物体的轮廓纹理来监督 attention 模块的学习,协助模型更好的学习到图片的结构信息。

该研讨也做了充沛的消融实验来验证这三个模块的作用,详细可见论文的正文部分。研讨者运用了清洗后的 LAION-5B 以及一些内部数据集来练习 RAPHAEL,LAION-5B 的清洗计划参考了 Stable Diffusion,超参数文中都有供给。同时,为了使得网络能够生成任意长宽比的图片,受到方针检测范畴的启发,研讨者提出了多标准练习:即把不同标准的图,根据这一标准的图的数量,输入不同的 GPU 练习。详细的网络结构见下图:

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

实验成果

该研讨首先在 FID 进步行了测验,FID 是一个衡量图片生成质量和多样性的方针,常常被用于评测生成模型的才能,实验在这一方针上打败了如 Stable Diffusion,DALL-E 2 等模型,到达 6.61。

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

此外,研讨者同时也根据人类点评给出了一些方针,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

一些小技巧

或许很多读者没有练习过怎么写文生图的 prompt,因此本文也供给了描述词优化的功用,能够将简略的 prompt 扩展成能得到优异作用的 prompt。当然,一些国外的网站也供给了一些优异的 prompt 库:

  • lexica.art/
  • www.midjourney.com/app/feed/
  • app.prompthub.studio/

同时建议我们把步数拉到 100,图片质量会更佳。

欢迎重视大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技能文档】《从零建立pytorch模型教程》122页PDF下载

QQ沟通群:470899183。群内有大佬担任解答我们的日常学习、科研、代码问题。

其它文章

中科院自动化所发布FastSAM | 精度适当,速度提高50倍!!!

大核卷积网络是比 Transformer 更好的教师吗?ConvNets 对 ConvNets 蒸馏奇效

MaskFormer:将语义切割和实例切割作为同一使命进行练习

CVPR 2023 VAND Workshop Challenge零样本反常检测冠军计划

视觉魔法师:开启语义切割的奇幻之旅

沈春华团队最新 | SegViTv2对SegViT进行全面升级,让根据ViT的切割模型更轻更强

刷新20项代码使命SOTA,Salesforce提出新式根底LLM系列编码器-解码器Code T5+

或许95%的人还在犯的PyTorch过错

从DDPM到GLIDE:根据分散模型的图画生成算法发展

CVPR最佳论文颁给自动驾驶大模型!中国团队榜首单位,近10年三大视觉顶会首例

最新轻量化Backbone | FalconNet汇聚所有轻量化模块的优点,成果最强最轻Backbone

ReID专栏(二)多标准设计与应用

ReID专栏(一) 使命与数据集概述

libtorch教程(三)简略模型建立

libtorch教程(二)张量的惯例操作

libtorch教程(一)开发环境建立:VS+libtorch和Qt+libtorch

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子运用

NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏(一)范畴布景、难点与数据集介绍

反常检测专栏(三)传统的反常检测算法——上

反常检测专栏(二):点评方针及常用数据集

反常检测专栏(一)反常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探求BEV流程(上篇)

可见光遥感图画方针检测(三)文字场景检测之Arbitrary

可见光遥感方针检测(二)首要难点与研讨办法概述

可见光遥感方针检测(一)使命概要介绍

TensorRT教程(三)TensorRT的装置教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初度介绍TensorRT​

AI最全材料汇总 | 根底入门、技能前沿、工业应用、布置结构、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉沟通群

聊聊计算机视觉入门