AI绘图入门：基础知识点

太初

这篇文章算不得扫盲文，仅仅是笔者初识AI绘图东西学习到的点点滴滴的记载，假如你有缘看到，能够参考参考假如你发现文中有什么错误的地方，请纠正，多谢，一起学习

Stable Diffusion

翻译： 简称 SD，运用词典翻译为：稳定分散。

官方 Stable Diffusion 由 Stability AI 发布，运用 Python 语言开发的图画生成深度学习模型。

官方地址：Github 地址 >>
仓库地址：Github 地址 >>

官方介绍： Stable Diffusion是一种根据分散进程的图画生成模型，能够生成高质量、高分辨率的图画。它经过模仿分散进程，将噪声图画逐渐转化为方针图画。这种模型具有较强的稳定性和可控性，能够生成具有多样化效果和杰出视觉效果的图画。

GPT-4 给出的解说如下： Stable Diffusion是一种先进的深度学习模型，专心于生成高质量的图画。它归于生成对抗网络（GANs）的一种变体，但更详细地，它运用了变分自编码器（VAEs）和Transformer架构的组合，以完成在给定文本提示的状况下生成图画的能力。这种模型由CompVis团队和其他合作者开发，并于2022年揭露发布。

Stable Diffusion的中心特点包括：

文本到图画生成：用户能够提供简略的文本描绘（例如，“一只穿戴宇航服的猫在月球上”），模型则能根据这些描绘生成相应的图画。这种能力使其在艺术创造、游戏规划、广告和其他需求视觉内容的范畴中非常有用。
高度定制化的输出：经过调整输入文本或模型的参数，用户能够控制生成图画的风格、细节等方面，然后取得高度定制化的输出。
开源和可拜访性：Stable Diffusion的开源性质意味着研究人员、开发者和艺术家能够自在运用、修改和集成此模型，促进了人工智能范畴的创新和使用。
高效性：与其他图画生成模型比较，Stable Diffusion在保持高质量输出的一起，对核算资源的需求相对较低，这使得它能够在不具备顶级硬件的设备上运转。

Stable Diffusion的使用场景非常广泛，包括但不限于：

艺术创造：艺术家和规划师能够运用它来生成共同的视觉作品或作为创造进程的一部分。
内容生成：在媒体和文娱职业中，它能够用来快速生成图画或视觉内容，加快内容的出产。
教育和研究：在教育范畴，它能够作为学习人工智能和核算机视觉概念的东西。一起，研究人员能够经过它探究图画生成和深度学习的新办法。
产品规划和原型制作：规划师能够利用它来生成规划概念或产品原型图，加快规划进程。总归，Stable Diffusion是一个强大的东西，它将深度学习的最新进展使用于图画生成，为构思产业和技能研究提供了新的或许性。

Stable Diffusion 版本

SD 也是有多个版本，仍旧现在官网 GITHUB NEWS 来看，截止 2024年01月30日，SD的当时版本为 V2，SD2.1-768

Stable Diffusion web UI

由 AUTOMATIC1111 发布的一个根据 Gradio 库的浏览器界面，用于 Stable Diffusion。

这样描绘也就没有什么可说了，SD 的运用是需求经过指令办法进行的，有了界面，相对而言合适普通人操作了。

官方地址：Github 地址 >>

笔者阐明： Stable Diffusion web UI 的装置进程首要在于 git，假如你是运用梯子或许署理装置，那么你或许需求经过下列指令设置一下本地 git 的署理：

git config --global http.proxy http://127.0.0.1:10809

其中的署理地址能够从系统署理中检查，win11中：设置-网络和Internet-手动设置署理。运用完成后，经过下列指令重置：

git config --global --unset http.proxy
git config --global --unset https.proxy

下面的指令是用于检查 git 署理状况的：

git config --global --get  http.proxy

Fooocus

由 Lvmin Zhang 发布的一个根据 Gradio 库的图画生成软件，这儿和 Stable Diffusion web UI 不同，并不是为 Stable Diffusion 服务的浏览器界面。

官方地址：Github 地址 >>

作者在项目中这样说的：

English:

Fooocus is a rethinking of Stable Diffusion and Midjourney’s designs:

Learned from Stable Diffusion, the software is offline, open source, and free.

Learned from Midjourney, the manual tweaking is not needed, and users only need to focus on the prompts and images.

中文：

Foocus 是对 Stable Diffusion 和 Midjourney 规划的重新思考：

从 Stable Diffusion 学习，该软件是离线的，开源的，免费的。

从 Midjourney 了解到，不需求手动调整，用户只需求关注提示和图画。

从这个描绘中能猜出一点，Fooocus 应该也是根据 Stable Diffusion 完成的，可是对 Stable Diffusion 的功用做了二次封装，使得它的运用更简便。

笔者阐明：

1、装置

Fooocus 的初度运用及初度运用某个功用时，都会触发对应的 Models 下载（或许也是其他什么文件，笔者暂时只知道是下载了一些文件），下载这些文件是需求梯子或许署理的，可是有意思的事，假如你敞开了梯子或许署理，Fooocus或许无法运转，因为会报错:

Expecting value: line 1 column 1 (char 0)

这时候的能够经过下列几个办法：

先发动 Fooocus，运转成功后再发动梯子或署理，这样下载就不会有问题，并且也不会报错
考虑在主动装备的署理中添加排除（不一定有用，IP+端口）
不敞开署理或梯子，运转 Fooocus 后，下载进程中需求下载哪个文件放到哪个目录记载下来，敞开梯子人工下载

当然了，上面的办法，第一个最靠谱……不是吗！

2、汉化

直接在 Fooocus 官方 github 下的 Issues 中查找 cn 关键词，截止现在（2024-01-30）有人请求合并过，可是作者如同没有同意，能够下载这个 cn.json 并放到 language 文件夹中，假如遇到短少的英文汉化的状况，界面会仍旧显示英文，能够自行在 cn.json 中补全

Stable Diffusion 与 Midjourney

Midjourney 我们熟知的图画人工智能东西，收费，而且不廉价，Midjourney后台应该也具有自己的【图画生成深度学习模型】，由于是商业东西，揭露信息相对有限，只能合理估测，它类似于其他先进的文本到图画生成技能，比方OpenAI的DALLE或Stability AI的Stable Diffusion，依赖于深度神经网络来理解文本输入并生成相应的图画。

Midjourney的图画生成东西展示了深度学习在艺术和构思表达方面的潜力，允许用户探究和完成他们的构思主意，无论是用于个人项目、艺术创造仍是商业使用。尽管Midjourney如何详细完成其技能的细节未彻底揭露，但它的存在无疑加强了AI在图画生成范畴的使用和影响力。

这样一来，我们应该就知道这两者是什么样的相同的和不同点了。

相同点：

都是为了从文字出产图画

不同的：

SD 是学习模型本身，而 Midjourney 是根据某种【图画生成深度学习模型】发布的东西
SD 开源免费，Midjourney 商用收费，并且价格不廉价

模型（Models）

CKPT（CheckPoint）

经过训练的图片合集，被称作模型，也就是chekpoint，体积较大，一般真人版的单个模型的大小在7GB左右，动漫版的在2-5个G之间。前期的CKPT后缀名是ckpt，如今新的CKPT后缀名都是safetensors。

Fooocus 的 CheckPoint 目录为：Fooocusmodelscheckpoints Web UI 的 Lora 目录为：stable-diffusion-webuimodelsStable-diffusion

Lora

是一种体积较小的绘画模型，是对大模型的微调。与每次作画只能选择一个大模型不同，lora模型能够在已选择大模型的根底上添加一个甚至多个。一般体积在几十到几百兆左右。后缀也是safetensors。比方有专门制作人体部位的，比方专门画面部或许眼睛的 Lora。

Fooocus 的 Lora 目录为：Fooocusmodelsloras Web UI 的 Lora 目录为：stable-diffusion-webuimodelsLora Web UI 还能够经过装置扩展 Kohya-ss Additional Networks script 的办法，然后把 lora 放到 extensionssd-webui-additional-networksmodelslora 目录，这种办法会把 Lora 的装备项单独显示到页面上，而不是经过提示词中的 <lora:xxxx_v1.0:1.2> 办法装备权重

CheckPoint 和 Lora

CKPT偏大遍及1G以上，Lora相对而言偏小几十到几百昭
C站(civitai)下载时会有Type标识

资源

好吧，好吧，我供认我是初学者，资源站我只知道一个，不过真的很丰厚，只要你想不到的，彻底开源开放，揭露可下载，存在限制级，请谨慎食用奥！假如这个地址拜访不了，请自行想办法，OK！

civitai

其他

我只知道这么多，待弥补

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。