前语 商汤大模型团队提出的文生图大模型RAPHAEL,能够生成具有高度艺术风格或许拍摄风格的图片,速度极快。
本文转载自机器之心
仅用于学术共享,若侵权请联络删去
欢迎重视大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
CV各大方向专栏与各个布置结构最全教程整理
【CV技能攻略】CV全栈辅导班、根底入门班、论文辅导班 全面上线!!
自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了大众的视野。
可是,现有的绝大部分模型依然做不到生成高质量且契合文本描述的图。
本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,能够生成具有高度艺术风格或许拍摄风格的图片,并且生成速度极快,并且在各项测验上打败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。
论文地址:arxiv.org/pdf/2305.18…
该研讨还供给了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,能够在 miaohua.sensetime.com/zh-CN/ 中免费试玩(留意不要选错模型了)。同时,研讨者也设置了反应按钮(在生成图的旁边)来帮他们不断优化,希望我们能够活跃体验并进行反应。
作用展现
更多作用展现:
办法介绍
本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。
Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再交融。
Time-MoE 模块使得模型能够在不同的 timestep 上挑选不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或许形容词。这些词的 diffusion path 都能够被 XGBoost 算法分开,证明了每一个 path 担任一个词。如下图所示:
Edge-supervised learning 运用物体的轮廓纹理来监督 attention 模块的学习,协助模型更好的学习到图片的结构信息。
该研讨也做了充沛的消融实验来验证这三个模块的作用,详细可见论文的正文部分。研讨者运用了清洗后的 LAION-5B 以及一些内部数据集来练习 RAPHAEL,LAION-5B 的清洗计划参考了 Stable Diffusion,超参数文中都有供给。同时,为了使得网络能够生成任意长宽比的图片,受到方针检测范畴的启发,研讨者提出了多标准练习:即把不同标准的图,根据这一标准的图的数量,输入不同的 GPU 练习。详细的网络结构见下图:
实验成果
该研讨首先在 FID 进步行了测验,FID 是一个衡量图片生成质量和多样性的方针,常常被用于评测生成模型的才能,实验在这一方针上打败了如 Stable Diffusion,DALL-E 2 等模型,到达 6.61。
此外,研讨者同时也根据人类点评给出了一些方针,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:
一些小技巧
或许很多读者没有练习过怎么写文生图的 prompt,因此本文也供给了描述词优化的功用,能够将简略的 prompt 扩展成能得到优异作用的 prompt。当然,一些国外的网站也供给了一些优异的 prompt 库:
- lexica.art/
- www.midjourney.com/app/feed/
- app.prompthub.studio/
同时建议我们把步数拉到 100,图片质量会更佳。
欢迎重视大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
计算机视觉入门1v3辅导班
【技能文档】《从零建立pytorch模型教程》122页PDF下载
QQ沟通群:470899183。群内有大佬担任解答我们的日常学习、科研、代码问题。
其它文章
中科院自动化所发布FastSAM | 精度适当,速度提高50倍!!!
大核卷积网络是比 Transformer 更好的教师吗?ConvNets 对 ConvNets 蒸馏奇效
MaskFormer:将语义切割和实例切割作为同一使命进行练习
CVPR 2023 VAND Workshop Challenge零样本反常检测冠军计划
视觉魔法师:开启语义切割的奇幻之旅
沈春华团队最新 | SegViTv2对SegViT进行全面升级,让根据ViT的切割模型更轻更强
刷新20项代码使命SOTA,Salesforce提出新式根底LLM系列编码器-解码器Code T5+
或许95%的人还在犯的PyTorch过错
从DDPM到GLIDE:根据分散模型的图画生成算法发展
CVPR最佳论文颁给自动驾驶大模型!中国团队榜首单位,近10年三大视觉顶会首例
最新轻量化Backbone | FalconNet汇聚所有轻量化模块的优点,成果最强最轻Backbone
ReID专栏(二)多标准设计与应用
ReID专栏(一) 使命与数据集概述
libtorch教程(三)简略模型建立
libtorch教程(二)张量的惯例操作
libtorch教程(一)开发环境建立:VS+libtorch和Qt+libtorch
NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子运用
NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型
NeRF与三维重建专栏(一)范畴布景、难点与数据集介绍
反常检测专栏(三)传统的反常检测算法——上
反常检测专栏(二):点评方针及常用数据集
反常检测专栏(一)反常检测概述
BEV专栏(二)从BEVFormer看BEV流程(下篇)
BEV专栏(一)从BEVFormer深入探求BEV流程(上篇)
可见光遥感图画方针检测(三)文字场景检测之Arbitrary
可见光遥感方针检测(二)首要难点与研讨办法概述
可见光遥感方针检测(一)使命概要介绍
TensorRT教程(三)TensorRT的装置教程
TensorRT教程(二)TensorRT进阶介绍
TensorRT教程(一)初度介绍TensorRT
AI最全材料汇总 | 根底入门、技能前沿、工业应用、布置结构、实战教程学习
计算机视觉入门1v3辅导班
计算机视觉沟通群
聊聊计算机视觉入门