新闻资讯
🗒️OpenAI解释了DALL-E 3的秘密武器,并展示了与Midjourny的比较
00 分钟
2023-10-20
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

OpenAI发表了一篇关于新图像AI DALL-E 3的论文,解释了为什么新图像AI比同类系统更紧密地遵循提示。

作为DALL-E 3全面推出的一部分,OpenAI发表了一篇关于DALL-E 3的论文:它讨论了为什么DALL-E 3与现有系统相比可以如此紧密地遵循提示的问题。
答案已经包含在论文的标题中:“通过更好的图像标记优化图像生成”。
在实际训练DALL-E 3之前,OpenAI训练了自己的AI图像标记器,然后用于重新标记图像数据集以训练实际的DALL-E 3图像系统。在重新标记时,OpenAI非常重视特别详细的描述。
在训练 DALL-E 3 之前,OpenAI 实验性地训练了三种具有三种注释类型的图像模型:人类、短合成和详细合成。
notion image
该图像在顶部显示了人类标签,下面是一个简短的合成图像生成,底部显示了为 DALL-E 3 训练图像生成的详细标签。|图片:OpenAI

即使是简短的合成注释,在基准测试中也明显优于人工注释。长描述性注释达到了更高的值。

notion image
已在不同标签类型上训练的文本图像模型的 CLIP 分数。|图片:OpenAI
OpenAI还尝试了不同的合成和人工注释风格的混合。但是,机器标注的比例越高,图像生成效果越好。
例如,DALL-E 3 包含 95% 的机器注释和 5% 的人工注释。

提示精度:DALL-E 3 与中途 5.2 和稳定扩散 XL

OpenAI 在综合基准测试和人体测试中测试了 DALL-E 3 的及时准确性。在所有合成基准测试中,DALL-E 3 都领先于其前身 DALL-E 2 和 Stable Diffusion XL,通常以显着优势领先。
notion image
综合基准。|图片:OpenAI
更相关的是在及时性、风格和可信度方面的人力评估。特别是在提示跟随方面,与中途相比,结果显然有利于 DALL-E 3。
notion image
人们的评价。|图片:OpenAI
但OpenAI的新图像AI在风格和连贯性方面也明显优于Midjourney 5.2。开源AI稳定扩散XL的跌幅更大。根据OpenAI的说法,DALL-E 3在定位空间中的物体(左边,右边,后面等)仍然存在问题。
在脚注中,OpenAI指出,图像标题的创新只是DALL-E 3创新的一部分,DALL-E 3比DALL-E 2有“许多改进”。
因此,DALL-E 3 相对于竞争系统的明显优势不仅仅是由于合成图像标记。OpenAI在论文中没有讨论对DALL-E 3的进一步改进。

Midjourny和公司现在还不应该被注销

作为Midjourney的狂热用户,我对DALL-E 3能够相对准确地遵循我的图像命令感到兴奋。对于解码器,我们使用了很多AI生成的插图。它们越准确地反映文章的内容越好。
这就是为什么我现在基本上切换到DALL-E 3。
然而,在图像质量方面,我仍然认为Midjourney处于领先地位。DALL-E 3 偶尔倾向于具有通用的库存照片外观。特别是在逼真的场景方面,DALL-E 3 处于劣势,例如,人看起来很人造。
此外,在提示方面,Midjourney在内容和技术方面为我提供了更多的创作自由。
Midjourney还希望通过v6提高提示精度,从而可以再次弥补DALL-E 3的基础。OpenAI的DALL-E 2起初也设定了新标准,但很快就被市场超越了。

总结

  • OpenAI发表了一篇关于DALL-E 3图像AI的论文,其中展示了系统如何通过使用更好的图像标签比其他系统更紧密地遵循图像命令。
  • OpenAI首先训练了自己的AI图像字幕器,然后对用于训练DALL-E 3的图像数据集使用了详细的人工描述。
  • DALL-E 3 在综合基准测试和人工评估方面优于其前身 DALL-E 2 和其他竞争系统,特别是在及时的准确性、风格和连贯性方面。
 

评论
  • Twikoo