速度提升数十倍，只需一张图一句话，谷歌新模型20秒即可实现变脸-六虎

时隔 8 个月，谷歌又提出了一种能在 20 秒内完成人脸个性化处理的新生成模型。

此前，谷歌和波士顿大学的研讨者提出了一种「个性化（Personalization）」的文本到图画分散模型 DreamBooth，用户只需供给 3~5 个样本 + 一句话，AI 就能定制照片级图画。

关于「个性化」咱们能够这样理解，以输入图画为参阅，生成的图画在各种情境和不同风格中都能坚持对其身份的高度忠诚。

举例来讲，输入左侧 4 张小狗的照片，DreamBooth 就能够生成不同类型的小狗，如小狗在景点里旅行、在海里游泳、趴在窝棚里睡觉、乃至人类给它修剪毛发，而生成的图片都高度坚持了原图画的特色。

然而，个性化过程在时间和内存需求方面还存在许多应战。详细到单个个性化模型，进行微调需求大量的 GPU 时间投入，不仅如此，个性化模型还需求很高的存储容量。

为了克服这些应战，时隔 8 个月，谷歌又提出了一种新的生成模型 HyperDreamBooth。HyperDreamBooth 能够生成不同上下文和风格的人脸，同时还能保留脸部要害常识。

在只运用一张参阅图画的情况下，HyperDreamBooth 在大约 20 秒内完成了对人脸的个性化处理，比 DreamBooth 快 25 倍，比 Textual Inversion 快 125 倍，不仅如此，生成的图画与 DreamBooth 质量相同、风格还多样性。此外，HyperDreamBooth 还比惯例的 DreamBooth 模型小 10000 倍。

论文地址：arxiv.org/pdf/2307.06…

论文主页：hyperdreambooth.github.io/

在咱们深入探讨技术细节之前，先看一些作用。

下图中，左面一栏是输入图画，给定一张图画就能够；中心一栏是依据不同的提示生成的人脸，提示语分别是 Instagram 上一张 V 型脸的自拍照；皮克斯卡通人物的 V 型脸；摇滚明星 V 型脸；树皮相同的 V 型脸。最右边生成的是人物专业照片 V 型脸。成果显现，HyperDreamBooth 具有相当大的可修改性，同时还能坚持人物要害面部特征的完整性。

HyperDreamBooth 与 Textual Inversion 、DreamBooth 办法比较有何优势呢？

下图展示了两个示例、5 种风格，成果显现，HyperDreamBooth 能够很好的坚持输入图画特性，还具有很强的可修改性。

接下来咱们看看 HyperDreamBooth 详细是怎么完成的。

办法介绍

该研讨提出的办法由 3 个核心部分组成，分别是轻量级 DreamBooth（Lightweight DreamBooth，LiDB）、猜想 LiDB 权重的 HyperNetwork 和 rank-relaxed 快速微调。

LiDB 的核心思想是进一步分化 rank-1 LoRa 残差的权重空间。详细来说，该研讨运用 rank-1 LoRA 权重空间内的随机正交不完全基（random orthogonal incomplete basis）来完成这一点，如下图所示：

HyperDreamBooth 的练习和快速微调如下图 2 所示，分为两个阶段。

第 1 阶段：练习 HyperNetwork 以依据人脸图画猜想网络权重。该研讨运用预先计算的个性化权重进行监督，运用 L2 丢失和 vanilla 分散重建丢失函数。第 2 阶段：给定面部图画，用 HyperNetwork 猜想网络权重的开始猜想（initial guess），然后运用重建丢失进行微调以增强保真度。

HyperNetwork 架构

该研讨运用的 HyperNetwork 架构如下图 4 所示。其间，视觉 Transformer（ViT）编码器将人脸图画转换成潜在的人脸特征，然后将其连接到潜在层权重特征（初始化为 0）。Transformer 解码器接收连接特征的序列，并通过运用 delta 猜想细化初始权重来迭代地猜想权重特征的值。