Imagen 2能够生成质量更高、更传神、更精确的图画。

谷歌最近真是好消息不断。

先是前几天祭出大杀器 Gemini,发布会上的一系列 Demo 展现让人眼花缭乱。短短一周时间,现在谷歌又宣布了几个好消息:Gemini Pro 的第一个版本现在能够经过 Gemini API 拜访;发布 Imagen 2;推出一系列针对医疗行业进行微调的模型 MedLM。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

在这些发布傍边,文本到图画的 Imagen 2 遭到大家格外的重视。此前,谷歌就推出了文本到图画分散模型 Imagen,其生成的成果可谓是天马行空、奇幻又传神。

现在,随着 Google DeepMind 宣布 Imagen 2 的到来,谷歌在图画生成范畴又前进了一步。他们在官方 X 上表明:「Imagen 2 是我们最先进的文本到图画分散技能,具有高质量,传神的输出和与用户提示更强的一致性。」

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

开发人员和云客户能够经过 Google Cloud Vertex AI 中的 Imagen API 来运用 Imagen 2 。

Google Cloud Vertex AI 地址cloud.google.com/blog/produc…

Imagen 2 效果究竟怎么呢?我们持续往下看。

提示:「一张 32 岁女性在丛林中的相片,她是一位自然资源保护主义者;运动型短卷发,笑脸温暖」。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

提示:深蓝色背景中的水母。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

提示:油画,一个桔子在砧板上。光穿过橙色的部分,在切菜板上投下橙色的光。背景中有一块蓝色和白色相交的布。焦散、反射光、赋有表现力的笔触。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

Imagen 2:更懂用户心思

为了创建更高质量、更精确以及更契合用户提示的图片,Google DeepMind 在 Imagen 2 练习数据会集进行了一些更改,他们在图画描绘(caption)中增加了更详细的描绘,这样一来 Imagen 2 能够学习不同的描绘并加以概括,然后更好地了解用户提示。

经过增强的「图画 – 描绘对」有助于 Imagen 2 更好地了解图画和文字之间的关系,然后增强对上下文和细微差别的了解。

以下是 Imagen 2 快速了解提示的示例:

提示:溪水潺潺,鸟儿唱着歌,它们混合的音乐在空中飘荡。(菲利斯・惠特利的《傍晚赞歌》)

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

提示:知更鸟从摇曳的常春藤丛中飞到墙顶,打开喙,唱起嘹亮、心爱的颤音,只是为了夸耀。世界上没有什么比知更鸟夸耀时更心爱的了。—— 它们简直总是这么做。(弗朗西斯・霍奇森・伯内特的《隐秘花园》)

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

提示:考虑一下海洋的微妙之处;其间最可怕的生物怎么在水下滑行,大部分时间是不明显的,而且危险地隐藏在最美丽的湛蓝色调之下。(赫尔曼・梅尔维尔的《白鲸》)

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

生成更传神的图画

Imagen 2 在数据集和模型方面改善了文本到图画东西常常遇到的许多问题,包括烘托传神的手和人脸,以及坚持图画没有干扰视觉的伪影。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

Imagen 2 生成传神手部和人脸的示例。

谷歌团队根据人类对照明、取景、曝光、清晰度等品质的偏好,练习了一个专门的图画美学模型。每张图片都会得到一个美学评分,这有助于调整 Imagen 2,使其在练习数据会集对契合人类偏好的图片给予更多权重。这项技能提高了 Imagen 2 生成高质量图画的才能。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

_运用 prompt「Flower」生成的图画,美学得分由低变高(从左到右)。
_

Imagen 2 甚至能够出现图画中的文本。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

它还能够为企业、品牌或产品规划 logo:

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

丝滑的风格调节

Imagen 2 根据分散技能供给了高度的灵活性,使操控和调整图画风格变得更加容易。经过供给参考风格的图画并结合文字提示,运用者能够调节 Imagen 2 生成相同风格的新图画。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

Imagen 2 经过运用参考图片和文本提示更容易地操控输出风格

「遥遥领先」的修补和扩图技能

Imagen 2 还支持修补(inpainting)和扩图(outpainting)等图画编辑功用。经过供给参考图画和图画遮罩,用户能够运用修补技能在原始图画中直接生成新内容,或者运用扩图技能将原始图画扩展到边界之外。Google Cloud 的 Vertex AI 计划在新的一年采用这项技能。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

Imagen 2 能够经过修补技能直接在原始图画中生成新内容。

谷歌DeepMind最先进Imagen 2发布:这些AI图片你能区分吗?

经过扩图,Imagen 2 能够将原始图画扩展到边界之外。

有责任感的规划

为了协助下降文本到图画生成技能的潜在风险和挑战,谷歌团队从规划、开发到产品布置都设置了严厉的防护办法。

Imagen 2 与 SynthID 集成,SynthID 是用于水印和识别人工智能生成内容的顶级东西包,答应 Google Cloud 客户在不影响图画质量的情况下,直接在图画像素中增加不易发觉的数字水印。这样一来,即便在应用滤镜、裁剪或有损压缩等修改后,SynthID 仍能检测到水印。

在向用户发布功用之前,研讨团队会进行严厉的安全测试,以最大极限地下降损伤风险。从一开端,他们就对 Imagen 2 的练习数据安全下了很多功夫,并增加了技能防护办法,约束暴力、攻击性或色情内容等有问题的输出。他们还在生成时对练习数据、输入提示和系统生成的输出进行安全检查。例如,应用全面的安全过滤器,以避免生成有潜在问题的内容,如指定个人的图画。随着 Imagen 2 功用的不断扩展和推出,研讨团队也在不断对其进行安全评估。

参考链接:deepmind.google/technologie…