谷歌最强大的文生图大模型 Imagen 2,可提供与用户提示词紧密结合且一致的高质量、逼真的图像输出。它可以通过使用训练数据的自然分布来生成更逼真的图像,而不是采用预先编程的风格。
谷歌的增强模型 Imagen 2是利用谷歌旗舰人工智能实验室Google DeepMind的技术开发的,该模型在5月份的科技巨头 I/O大会上悄悄推出了预览版。谷歌声称,与第一代Imagen相比,它在图像质量方面“显着”提高,并引入了新功能,包括渲染文本和Logo的能力。
“Imagen 2 可以生成……徽章、字母标记和抽象徽标……[并且]能够将这些徽标覆盖到产品、服装、名片和其他表面上。”
得益于“新颖的训练和建模技术”,Imagen 2还可以理解更具描述性的长格式提示,并对有关图像中元素的问题提供“详细答案”。谷歌表示,这些技术还增强了 Imagen 2的多语言理解能力——允许模型将一种语言的提示翻译成另一种语言的输出(例如Logo)。
Imagen 2利用SynthID(DeepMind开发的一种方法)将隐形水印应用到其创建的图像上。当然,检测这些水印(谷歌声称这些水印能够适应图像编辑,包括压缩、滤镜和颜色调整)需要谷歌提供的工具,而第三方无法使用该工具。