谷歌的 ImageInWords 可以修复 Midjourney & Co 中的一个关键漏洞

type

status

date

slug

summary

category

icon

password

URL

当人工智能和人类一起工作时，可以创建更详细、更准确的图像描述。这种方法不仅可以推动谷歌，也可以推动整个行业的发展。

Google 研究团队开发了 ImageInWords (IIW)，这是一个旨在将图像描述提升到新水平的系统。 IIW 将针对员工的精确指示与分步描述流程相结合。

结果是极其详细的图像描述，在基准测试中优于以前的方法。

当前用于图像处理的人工智能系统通常使用来自互联网的大量数据进行训练。然而，这些数据通常不准确，并且使用简单的替代文本而不是有意义的图像描述。这限制了这些系统的能力。

之前创建更高质量图像描述的尝试也存在弱点——无论这些描述是由人类还是人工智能模型创建的，因为它们表现出主观扭曲或幻觉。

IIW 正面应对这些挑战。首先，系统识别图像中的单个对象。然后人工智能为每个对象创建初始描述。这些是人类描述的起点。

人们应该“像画家一样”描述一幅画。

人类描述者对与对象相关的描述进行提炼和扩展，并应确保描述既全面又准确。

评论员被要求表现得好像他们在指导画家用语言来绘画一样，并且只包括那些可以从视觉线索中推断出的细节，以提高准确性。为了写出流畅连贯的描述，应避免不必要的断句；评论者应避免使用“在这张图片中”、“我们可以看到”、“有一个”和“这是一张图片”等填充词，因为它们过于冗长，并且不会添加视觉细节。

从纸上看

完整的描述指南可以在第 7.1 章下的论文附录中找到，该指南涵盖了几页。除其他事项外，员工应注意图像的以下属性：

功能：组件的用途或其在图像中扮演的角色

形状：特定的几何形状，有机的或抽象的

尺寸：大、小或相对于其他物体的尺寸

颜色：具有细微差别的特定颜色，例如纯色或彩色

设计/图案：纯色、花卉或几何质地：光滑、粗糙、凹凸不平、闪亮或哑光

材质：木材、金属、玻璃或塑料

状况：好、差、旧、新、损坏或磨损

不透明度：透明、半透明或不透明

方向：直立、水平、倒置或倾斜

位置：前景、中景或背景

与其他组件的关系：相互作用或相对空间排列

写在对象上的文本：书写位置和方式、字体及其属性、单行/多行或多行文本

然后，视觉语言模型创建整个图像的描述。注释者将这些与对象相关的描述一起使用来创建完整且连贯的图像描述。

IIW 中第一个由人工智能生成的描述为人类描述者提供了一个起点并加速了这一过程。 IIW 还使用分步方法，其中注释器基于先前的描述。

这可以在更短的时间内获得更高质量的结果。

谷歌的方法经常在测试中击败其他方法

在根据提示重建输入图像的下游任务的测试中，无论描述长度如何，IIW 在人类评估中表现最好。

IIW 描述在需要更深入理解图像内容的任务中也表现出色。它们包含区分真假图像信息的必要细节。

谷歌计划进一步改进IIW，将其扩展到其他语言并减少人力劳动量。

IIW 有潜力影响广泛的人工智能应用，从图像搜索到视觉问答系统，再到合成数据的创建，从而不断改进文本到图像模型。

虽然 Midjourney v6、SDXL 或 Firefly 3 等当前技术已经可以生成令人惊叹的高质量图像，但所谓的提示跟随，即模型如何准确地实现文本输入，仍然是一个有优化潜力的领域。 IIW 似乎是一个重要的构建模块，不仅可以使 Imagen 等 Google 软件受益，还可以使其他公司的软件受益。

总结