FreeControl 可以更好地控制稳定扩散 - 无需培训
00 分钟
2024-1-3
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

图像生成器不仅可以通过文本提示进行控制,例如使用 ControlNet。然而,这些方法在过去需要大量的训练。 FreeControl 应该会改变这一点

加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Innopeak Technology Inc. 的研究人员开发了一种可控文本到图像生成 (T2I) 的新方法,他们称之为“FreeControl”。
除了文本提示之外,FreeControl 还可以输入各种“条件”,例如草图、深度图或点云,并与稳定扩散 1.5、2.1 和 SDXL 1.0 模型相结合。这使得该方法类似于广泛使用的 ControlNet,但不需要任何专门训练的模型。
notion image

FreeControl 不需要任何明确的培训

FreeControl 旨在为用户提供对扩散模型的细粒度空间控制。
与之前的方法不同,之前的方法需要针对每种类型的空间条件、模型架构和检查点添加额外的模块,而 FreeControl 不需要这种显式训练。
FreeControl 首先从样本图像中提取一些关键特征。
这些示例图像由指定图像结构的输入图像、根据相应提示自动生成的生成图像以及调整提示以便仅显示基本概念的另一种变体组成。人 - 但并非所有细节 - 例如演讲的乐高人 - 都包括在内。因此提取的特征包括图像的构成、内容和风格以及本质概念。它们共同指导最终图像的生成。
notion image

也适用于图片到图片

据作者称,FreeControl 可以生成高质量的图像,并且据说比其他尝试在未经训练的情况下管理图像生成的方法取得了更好的结果。 FreeControl 方法还可以轻松地适用于图像到图像的提示。
自 2023 年春季以来,ControlNet 出现了第一种方法,可以通过文本提示以外的条件来控制稳定扩散模型的输出。随后不久发表的 GLIGEN 更进一步,记录了图像中所需物体的位置和大小。
FreeControl 似乎是这些想法的逻辑、甚至更强大的发展,它一方面独立于资源密集型训练,另一方面接受一系列不同的输入条件。

总结

  • 研究人员开发了一种名为 FreeControl 的免训练方法,可实现可控的文本到图像生成,同时支持多种条件、架构和检查点。
  • FreeControl 能够对扩散模型进行微调空间控制,从样本图像中提取关键特征来指导图像构成、内容、风格和基本概念。
  • 该方法生成的高质量图像比以前的方法更容易控制,并且可以轻松适应文本驱动的图像到图像提示。
 

评论
  • Twikoo