新闻资讯
PixArt-Σ:新模型可生成 4K 分辨率的精确 AI 图像
00 分钟
2024-3-11
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL
尽管参数明显减少,但 PixArt-Σ 的表现优于 SDXL,甚至不逊于商业模型。
华为诺亚方舟实验室以及多所中国大学的研究人员最近推出了 PixArt-Σ(Sigma),这是一种文本到图像模型,它基于 PixArt-α(Alpha)和 PixArt-δ(Delta)的早期发现,在图像质量、提示准确性和处理训练数据方面的效率方面都有所提升。其独特性在于该模型创建的图像具有超高的分辨率。

图像分辨率更高,更符合提示要求

PixArt-Σ 无需中间升级器即可直接生成高达 3,840 x 2,560 像素的图像,即使在非常规纵横比下也能生成。之前的 PixArt 模型仅限于 1,024 x 1,024 像素。
图片:Chen 等人
图片:Chen 等人
更高的分辨率也导致对计算能力的需求更高,研究人员试图通过训练中的“弱到强”策略来平衡这一点。
该策略包括特定的微调技术,可以快速有效地从较弱的模型过渡到较强的模型。
这些技术包括使用更强大的可变自动编码器 (VAE),它能更好地“理解”图像,从低分辨率扩展到高分辨率,以及从无键值压缩 (KV) 模型发展到有 KV 压缩的模型。
总体而言,训练和推理时间减少了 34%。
根据论文,从互联网上自主收集的训练材料包括 3300 万张分辨率至少为 1K 的图像和 230 万张分辨率为 4K 的图像。
这样一来,与 PixArt-α 的 1400 万张训练图像相比,他们将数量增加了一倍以上。但与例如在 SDXL 1.0 中处理的 1 亿张图像相比,他们还有很长的路要走。
提示:“达芬奇的《最后的晚餐》油画,梵高的风格” | 图像:Chen 等人
提示:“达芬奇的《最后的晚餐》油画,梵高的风格” | 图像:Chen 等人
除了训练材料中图像的纯粹分辨率外,描述的准确性也发挥着重要作用。虽然研究人员在 PixArt-α(Alpha)中使用 LLaVA 时观察到了幻觉,但基于 GPT-4V 的“Share-Captioner”在很大程度上消除了这个问题。这款开源工具为收集到的图像编写详细且准确的标题,以训练 PixArt-Σ 模型。
此外,令牌长度已增加到约 300 个单词,这也导致文本提示和图像生成之间内容的一致性更高。
提示:“游戏艺术——一个具有不同地理属性的岛屿和多个漂浮在太空中的小城市” | 图像:陈等人
提示:“游戏艺术——一个具有不同地理属性的岛屿和多个漂浮在太空中的小城市” | 图像:陈等人

PixArt-Σ 旨在与更大模型竞争

与其他模型相比,尽管 PixArt-Σ 的参数数量相对较少(6 亿),但它在图像质量和提示一致性方面已显示出比现有的开源文本图像扩散模型(如 SDXL(26 亿)和 SD Cascade(51 亿))更好的性能。
此外,对于与 PixArt-α 相当的 1K 模型,它只需要 PixArt-α 所需 GPU 训练时间的 9%。
SDXL
SDXL
 
PixArt-α
PixArt-α
PixArt-Σ
PixArt-Σ
但 PixArt-Σ 也能与 Adobe Firefly 2、Google Imagen 2、OpenAI DALL-E 3 和 Midjourney v6 等商业替代品相媲美。上面滑雪板的示例是使用提示“像素艺术风格的滑雪板运动员在空中表演技巧,身穿蓝色运动衫和黑色裤子,双臂伸展。
宁静的雪景背景,点缀着树木,为场景增添了趣味。低角度透视图突出了技巧的高度和技能”生成的。下排图片源自提示“一位挑剔的科学家”。
PixArt-Σ
PixArt-Σ
Midjourney v6
Midjourney v6
Imagen 2
Imagen 2
Firefly 2
Firefly 2
DALL-E 3
DALL-E 3
研究人员在示例图片中未显示文本内容。虽然最近 Stable Diffusion、Midjourney 和 Ideogram 在此方面取得了重大进展,但由于 PixArt 的训练重点是高分辨率照片,因此其表现可能较差。
“我们相信,PixArt-Σ 中提出的创新不仅有助于推动生成式 AI 社区的进步,而且还将为获得更高效、更高质量的生成模型铺平道路,”研究人员在论文中总结道。
事实上,其他研究工作也可以从他们在处理训练数据方面的发现中受益。目前尚不清楚他们的模型是否会像 PixArt-α 一样作为开源发布。
总结
  • 在 PixArt-α 之后,包括华为诺亚方舟实验室在内的研究人员展示了 PixArt-Σ,它可以生成 4K 分辨率的图像,同时非常准确地遵循提示。
  • PixArt-Σ 采用“弱到强”策略来降低计算需求,并且与开源模型相比,尽管参数数量减少了 6 亿,但仍提供了更好的结果。
  • 科学家们将图像的高质量归因于对训练材料的精心选择以及更准确的图像描述。
 

评论
  • Twikoo