科技圈的风口年年都在变,前几年是区块链,后来是虚拟实际,元宇宙,web3,而现在是 AI,VR 曾经让我振奋过,惋惜它终究没能构成足够大的浪潮,离终究完成或许还很悠远。而 2022 年开始的 AI 浪潮让我觉得咱们或许站在一个人类走向智能化的起点上,这是一个或许催生出下一阶段技术革命的范畴,我觉得有必要投身其中成为一个参与者,至少也要掌握这些 AI 东西供给给咱们的新的才能。
现在 AI 有两个干流的方向,一个是以 Stable Diffusion 为代表的 AI 图画生成范畴,一个是 ChatGPT 为代表的大语言模型范畴,本篇首要聚集 AI 图画生成范畴,Stable Diffusion WebUI 是现在比较干流的图片生成方向的软件,特点是开源 + 自定义程度高,适合比较喜欢折腾的同学运用,其强壮的扩展性使在社区取得了广泛的应用。
本篇不讲原理只讲运用(我也没来得及深入了解),当时你可以简略了解运用 Diffusion 分散模型生成图片的进程便是一个增加噪声再去除噪声的进程,在这个进程中 AI 将你的意图以及它经过无数练习样本建立起来的特征和原图的关联所构成的潜在变量空间为辅导生成图片,而 WebUI 便是用于操控 AI 生成图片的东西。
假设将 AI 生成图片比作魔法,那么提示词便是“咒语”,WebUI 便是“魔杖”,当然不止有这一种魔杖,其他比方 ComfyUI 是另一种魔杖。B站 UP 主有一个比较形象的比方,尝试着把眼睛眯到只剩一条缝去看它(国际名画《戴珍珠耳环的少女》),图画会变得含糊,坚持这个状况幻想着她正逐渐变得二次元,随后慢慢睁开眼睛:
硬件篇
Stable Diffusion WebUI 现在最干流的调配办法是 Windows + Nvidia 显卡,所以为了取得最佳的运用体会你需求装备一台 Windows 机器和一张 Nvidia 显卡(现在消费级显卡顶配 4090)。
显卡选择
这儿最中心的硬件便是显卡,装备层面上显卡有两个中心指标:
显卡算力巨细影响出图速度,过低的出图速度会影响自己的运用体会,快速消耗自己的耐性和热心,建议至少 3060 以上,下面有一张从 B 站爬的显卡速度比照供参阅。
假设你只要一台 Mac 电脑而且仅仅想简略体会一下可以参阅,但速度会比较慢,请不要过火等待:
✨ MacBook M1/M2 机器布置 stable-diffusion-webui
当然以 Stable Diffusion 的火爆程度苹果官方下场进行了适配,可以在 M1/M2 Mac 和 M1 Pad 上运转,参阅这个项目,但速度依然比不上,依据其测试数据 M1 Pro 16G 机器跑 sd 1.5 生成 512×512 图在 35s 左右。
GitHub – apple/ml-stable-diffusion: Stable Diffusion with Core ML on Apple Silicon
prompt 顾名思义是”提示词”的意思,在 AI 文生图中用于辅导 AI 生成进程,告知 AI 你想要的画面作用。提示词是咱们与 AI 科学高效沟通的桥梁,有点像魔咒相同,输入一段奇特的词语,AI 会将你的主意变成实际。一个 AI 可以读懂的好咒语应该是内容充实丰厚且画面具有明晰标准的,这儿供给一个通用模板供快速运用:
通俗了解 Embedding是“提示词打包”,即经过触发词将相关的一组特征词描绘打包在一起。在没有 Embedding 之前假设在不借助任何插件的状况你要生成一张想要的图片时需求大量的 tag 和描绘词去描绘,在引入 embedding 之后只需求一个词作为触发词即可到达上面的作用:
截图来源于 B 站视频
具体请见:
️ Embedding 提示词打包
LoRA 低秩习惯模型
LoRA 出自微软的一篇论文,LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS,原论文运用于 NLP 范畴,没想到在 Stable Diffsuion 中发扬光大了。中文名可以称呼为”低秩习惯模型“,简称 LoRA。LoRA 可以协助你向 AI 传递、描绘某一个特征精确,主体明晰的形象,其所携带的信息比较 Embeddings 要更丰厚。