时隔 8 个月,谷歌又提出了一种能在 20 秒内完成人脸个性化处理的新生成模型。
此前,谷歌和波士顿大学的研讨者提出了一种「个性化(Personalization)」的文本到图画分散模型 DreamBooth,用户只需供给 3~5 个样本 + 一句话,AI 就能定制照片级图画。
关于「个性化」咱们能够这样理解,以输入图画为参阅,生成的图画在各种情境和不同风格中都能坚持对其身份的高度忠诚。
举例来讲,输入左侧 4 张小狗的照片,DreamBooth 就能够生成不同类型的小狗,如小狗在景点里旅行、在海里游泳、趴在窝棚里睡觉、乃至人类给它修剪毛发,而生成的图片都高度坚持了原图画的特色。
然而,个性化过程在时间和内存需求方面还存在许多应战。详细到单个个性化模型,进行微调需求大量的 GPU 时间投入,不仅如此,个性化模型还需求很高的存储容量。
为了克服这些应战,时隔 8 个月,谷歌又提出了一种新的生成模型 HyperDreamBooth。HyperDreamBooth 能够生成不同上下文和风格的人脸,同时还能保留脸部要害常识。
在只运用一张参阅图画的情况下,HyperDreamBooth 在大约 20 秒内完成了对人脸的个性化处理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不仅如此,生成的图画与 DreamBooth 质量相同、风格还多样性。此外,HyperDreamBooth 还比惯例的 DreamBooth 模型小 10000 倍。
论文地址:arxiv.org/pdf/2307.06…
论文主页:hyperdreambooth.github.io/
在咱们深入探讨技术细节之前,先看一些作用。
下图中,左面一栏是输入图画,给定一张图画就能够;中心一栏是依据不同的提示生成的人脸,提示语分别是 Instagram 上一张 V 型脸的自拍照;皮克斯卡通人物的 V 型脸;摇滚明星 V 型脸;树皮相同的 V 型脸。最右边生成的是人物专业照片 V 型脸。成果显现,HyperDreamBooth 具有相当大的可修改性,同时还能坚持人物要害面部特征的完整性。
HyperDreamBooth 与 Textual Inversion 、DreamBooth 办法比较有何优势呢?
下图展示了两个示例、5 种风格,成果显现,HyperDreamBooth 能够很好的坚持输入图画特性,还具有很强的可修改性。
接下来咱们看看 HyperDreamBooth 详细是怎么完成的。
办法介绍
该研讨提出的办法由 3 个核心部分组成,分别是轻量级 DreamBooth(Lightweight DreamBooth,LiDB)、猜想 LiDB 权重的 HyperNetwork 和 rank-relaxed 快速微调。
LiDB 的核心思想是进一步分化 rank-1 LoRa 残差的权重空间。详细来说,该研讨运用 rank-1 LoRA 权重空间内的随机正交不完全基(random orthogonal incomplete basis)来完成这一点,如下图所示:
HyperDreamBooth 的练习和快速微调如下图 2 所示,分为两个阶段。
第 1 阶段:练习 HyperNetwork 以依据人脸图画猜想网络权重。该研讨运用预先计算的个性化权重进行监督,运用 L2 丢失和 vanilla 分散重建丢失函数。第 2 阶段:给定面部图画,用 HyperNetwork 猜想网络权重的开始猜想(initial guess),然后运用重建丢失进行微调以增强保真度。
HyperNetwork 架构
该研讨运用的 HyperNetwork 架构如下图 4 所示。其间,视觉 Transformer(ViT)编码器将人脸图画转换成潜在的人脸特征,然后将其连接到潜在层权重特征(初始化为 0)。Transformer 解码器接收连接特征的序列,并通过运用 delta 猜想细化初始权重来迭代地猜想权重特征的值。
值得一提的是,这是 transformer 解码器初次被用于 HyperNetwork。
如下图所示,HyperNetwork + 快速微调取得了杰出的作用:
试验
下表为 HyperDreamBooth 与 DreamBooth、 Textual Inversion 比较成果。标明,在所有指标上,HyperDreamBooth 得分最高。
下表为不同迭代次数下的比较成果,比较模型包含 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。成果显现,HyperDreamBooth 在三项指标上都超越其他模型。
下表为消融试验成果:首要对比的是 HyperNetwork 对性能的影响。
用户研讨。该研讨还让用户以投票的方法参与评估,成果显现用户对 HyperNetwork 生成的成果偏好强烈。
了解更多内容,请参阅原论文。