时隔 8 个月,谷歌又提出了一种能在 20 秒内完成人脸个性化处理的新生成模型。

此前,谷歌和波士顿大学的研讨者提出了一种「个性化(Personalization)」的文本到图画分散模型 DreamBooth,用户只需供给 3~5 个样本 + 一句话,AI 就能定制照片级图画。

关于「个性化」咱们能够这样理解,以输入图画为参阅,生成的图画在各种情境和不同风格中都能坚持对其身份的高度忠诚。

举例来讲,输入左侧 4 张小狗的照片,DreamBooth 就能够生成不同类型的小狗,如小狗在景点里旅行、在海里游泳、趴在窝棚里睡觉、乃至人类给它修剪毛发,而生成的图片都高度坚持了原图画的特色。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

然而,个性化过程在时间和内存需求方面还存在许多应战。详细到单个个性化模型,进行微调需求大量的 GPU 时间投入,不仅如此,个性化模型还需求很高的存储容量。

为了克服这些应战,时隔 8 个月,谷歌又提出了一种新的生成模型 HyperDreamBooth。HyperDreamBooth 能够生成不同上下文和风格的人脸,同时还能保留脸部要害常识。

在只运用一张参阅图画的情况下,HyperDreamBooth 在大约 20 秒内完成了对人脸的个性化处理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不仅如此,生成的图画与 DreamBooth 质量相同、风格还多样性。此外,HyperDreamBooth 还比惯例的 DreamBooth 模型小 10000 倍。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

论文地址:arxiv.org/pdf/2307.06…

论文主页:hyperdreambooth.github.io/

在咱们深入探讨技术细节之前,先看一些作用。

下图中,左面一栏是输入图画,给定一张图画就能够;中心一栏是依据不同的提示生成的人脸,提示语分别是 Instagram 上一张 V 型脸的自拍照;皮克斯卡通人物的 V 型脸;摇滚明星 V 型脸;树皮相同的 V 型脸。最右边生成的是人物专业照片 V 型脸。成果显现,HyperDreamBooth 具有相当大的可修改性,同时还能坚持人物要害面部特征的完整性。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

HyperDreamBooth 与 Textual Inversion 、DreamBooth 办法比较有何优势呢?

下图展示了两个示例、5 种风格,成果显现,HyperDreamBooth 能够很好的坚持输入图画特性,还具有很强的可修改性。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

接下来咱们看看 HyperDreamBooth 详细是怎么完成的。

办法介绍

该研讨提出的办法由 3 个核心部分组成,分别是轻量级 DreamBooth(Lightweight DreamBooth,LiDB)、猜想 LiDB 权重的 HyperNetwork 和 rank-relaxed 快速微调。

LiDB 的核心思想是进一步分化 rank-1 LoRa 残差的权重空间。详细来说,该研讨运用 rank-1 LoRA 权重空间内的随机正交不完全基(random orthogonal incomplete basis)来完成这一点,如下图所示:

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

HyperDreamBooth 的练习和快速微调如下图 2 所示,分为两个阶段。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

第 1 阶段:练习 HyperNetwork 以依据人脸图画猜想网络权重。该研讨运用预先计算的个性化权重进行监督,运用 L2 丢失和 vanilla 分散重建丢失函数。第 2 阶段:给定面部图画,用 HyperNetwork 猜想网络权重的开始猜想(initial guess),然后运用重建丢失进行微调以增强保真度。

HyperNetwork 架构

该研讨运用的 HyperNetwork 架构如下图 4 所示。其间,视觉 Transformer(ViT)编码器将人脸图画转换成潜在的人脸特征,然后将其连接到潜在层权重特征(初始化为 0)。Transformer 解码器接收连接特征的序列,并通过运用 delta 猜想细化初始权重来迭代地猜想权重特征的值。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

值得一提的是,这是 transformer 解码器初次被用于 HyperNetwork。

如下图所示,HyperNetwork + 快速微调取得了杰出的作用:

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

试验

下表为 HyperDreamBooth 与 DreamBooth、 Textual Inversion 比较成果。标明,在所有指标上,HyperDreamBooth 得分最高。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

下表为不同迭代次数下的比较成果,比较模型包含 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。成果显现,HyperDreamBooth 在三项指标上都超越其他模型。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

下表为消融试验成果:首要对比的是 HyperNetwork 对性能的影响。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

用户研讨。该研讨还让用户以投票的方法参与评估,成果显现用户对 HyperNetwork 生成的成果偏好强烈。

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

了解更多内容,请参阅原论文。