清华、北邮新研究：让文生图AI更懂你；让霉霉笑得更开心-六虎

AIGC经过学习现有的、人类创造的内容来快速完结内容创作。ChatGPT、Bard等AI聊天机器人以及DallE 2、Stable Diffusion等文生图模型都归于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研讨。

OpenAGI：当大模型遇见领域专家

“愿原力与大型言语模型和领域专家同在。”

——由 ChatGPT 生成

人类的智慧有着将基础技术组组成杂乱技术、从而处理杂乱使命的杰出才能。该研讨标明，除了开发大型、全面的智能模型外，为这些模型装备使用各种特定领域专家模型处理杂乱使命的才能，关于完成通用人工智能（AGI）相同至关重要。

近期，大型言语模型（LLMs）展示了杰出的学习和推理才能，有望成为挑选、归纳和履行外部模型来处理杂乱使命的控制器。该研讨开发了一个名为 OpenAGI 的开源 AGI 研讨平台，专门设计用于提供杂乱的多过程使命，并装备了特定使命的数据集、评价目标和多样化的可扩展模型。

OpenAGI 将杂乱使命公式化为自然言语查询，作为输入传递给 LLMs。然后，LLMs 经过挑选、归纳和履行 OpenAGI 提供的模型来处理使命。此外，该研讨提出了一种根据使命反应的强化学习（RLTF）机制，使用使命处理成果作为反应来改善 LLMs 的使命处理才能。以上，为自我改善的 AI 提供了一个反应循环。

该研讨以为，LLMs 操作各种专家模型处理杂乱使命的典范，是完成 AGI 的一种有前途的办法。

论文链接：

arxiv.org/abs/2304.04…

清华、北邮团队：让文生图AI更懂你

文本-图画生成模型，包括主动回归和根据分散的办法，在最近几年经历了快速的发展。然而，当前自我监督的预练习生成器还远远不够完美，一个首要的应战在于使模型与人类的偏好相一致。

该研讨提出了 ImageReward——第一个通用的文本到图画的人类偏好奖励模型——来处理生成模型中的各种普遍问题，并使它们与人类价值观和偏好保持一致。

这一模型的练习根据系统注释管道，包括评级和排名组件，收集了迄今为止 137000 个专家比较的数据集。在人类评价中，ImageReward 优于现有的评分办法（如比 CLIP 高出 38.6%），是文生图的抱负主动评价目标。

下图展示了不同的文生图评分器中，从 64 个生成的图画中选出的 Top-1 图画。ImageReward 挑选具有更好的文本连贯性和人类偏好的图画。在提示中，粗体大致标明内容，斜体标明风格或功能。

论文链接：

arxiv.org/abs/2304.05…

让霉霉笑得更高兴，根据先验信息修改人脸

在计算机视觉和图形学中，如何逼真地改变一张人像相片的光线、表情、头部姿势等，一起保存人物的身份和高频面部特征，是一个长期存在的问题。处理这个问题的难度，源于其根本上的欠约束性。

该研讨处理了从同一个人的少数（如 20 张）肖像相片中学习特定个人面部先验信息的问题。使得修改特定个人的外表（如表情和光线）一起保存他们的身份和高频面部细节成为可能。

该研讨提出的名为 DiffusionRig 办法的关键是一个分散模型，该模型以经过现场单个图画的现成估量器估量的大略 3D 人脸模型为条件进行“安装”，学习将 3D 面部模型的简略烘托映射到给定人物的真实相片中。

DiffusionRig 选用大略的物理烘托作为条件，以学习到的个人特征为基础来对输入图画进行修改。修改后的图画尊重烘托条件、保存身份信息，并展现高频面部细节。试验标明，DiffusionRig 在身份保存和真实感方面优于现有办法。

参阅链接：

arxiv.org/abs/2304.06…

用“富文本”生成图画

纯文本已成为文生图的流行界面。然而，其有限的定制选项阻止了用户准确描绘所需的输出。例如，纯文本很难指定连续的数量，如准确的 RGB 色彩值或每个单词的重要性。

此外，为杂乱场景创建详细的文本提示关于人类编写是繁琐的，对文本编码器来说也很难解释。为了应对这些应战，该研讨建议使用支持字体款式、巨细、色彩和脚注等格式的富文本修改器。

研讨阐释了从富文本中提取每个单词的特点，以完成部分风格控制、显式标记重新加权、准确的色彩烘托和详细的区域组成，经过根据区域的分散过程来完成这些才能。试验标明，这一办法在定量评价方面优于强基线。

此研讨办法办法允许用户使用富文本修改器描绘图画，并支持各种文本特点，如字体族、巨细、色彩和脚注等。根据从富文本提示中提取的这些文本特点，相较于一般文本，能够对文生图进行准确控制，涉及色彩、款式和物体细节。下图展示了分别选用一般文本（左图）与富文本（右图）生成的图片。

参阅链接：

arxiv.org/abs/2304.06…

清华、北邮新研究：让文生图AI更懂你；让霉霉笑得更开心

作者信息

推广

清华、北邮新研究：让文生图AI更懂你；让霉霉笑得更开心

相关文章

100%的代码覆盖率落地如何实现？《去哪儿网代码覆盖率落地提效实践》来啦~

JDK8 下载与安装教程，超简单版（Windows）

Android车载开发启示录（一）

初探 Compose for Wear OS：实现一个简易选择APP

作者信息

推广