新闻资讯
AI工具“StableDrag”转动蒙娜丽莎的头像
00 分钟
2024-4-8
2024-4-8
type
status
date
slug
summary
tags
category
icon
password
URL
人工智能图像生成器已经提供了一个强大的工具,可以通过修复来更改图像内容。通过基于点的编辑,调整变得更加容易。
南京大学和腾讯的研究人员开发了一种新的基于点的图像编辑方法,称为StableDrag。
通过这种方法,可以轻松地将元素移动到图像中的新位置,同时还考虑到透视的正确维护。
近年来,这种由人工智能驱动的图像处理取得了巨大的进步,特别是通过 FreeDrag、DragDiffusion 和 Drag-GAN 等模型。 StableDrag 建立在这些基础上,并存在于 GAN 和基于扩散的版本中。
新方法提供了明显更好的结果,这也反映在基准测试中。
一个明显的例子是通过将“蒙娜丽莎”的鼻子向右移动一点来改变“蒙娜丽莎”的观看方向(见封面照片)。
在左侧,您可以看到带有源点(红色)和目标点(蓝色)的输入图像,中间是 DragDiffusion 的结果,右侧是 StableDrag-Diff。

无论主题如何,始终如一的良好结果

StableDrag 是否输入真实照片、插图或其他 AI 图像并不重要。一个有用的使用示例是编辑人脸,但该工具也适用于汽车、风景或动物等图案。
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人
研究人员在论文中解释说,StableDrag 的关键创新是点跟踪的判别方法和基于置信度的策略来改进运动控制。
前者可以精确定位更新的目标点,而后者则确保优化的图像数据在每个处理步骤中保持尽可能高的质量。
跟踪的置信度值用于评估处理质量 - 如果低于阈值,则使用目标点处的原始图像特征作为参考,直到置信度恢复。
这可以防止图像内容与原始内容移得太远,而不会限制编辑选项。 StableDrag 的开发人员宣布他们很快将免费提供代码。
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人
图片:Cui 等人

AI 图像处理的新水平

虽然纯粹通过文本提示生成人工图像在过去两年中已经取得了很大进展,甚至看似真实的 AI 照片也不再对 Midjourney v6、Ideogram 或 SDXL 等模型构成挑战,但相比之下,图像处理仍处于起步阶段。
通过某些模型(Midjourney、Adobe Firefly、DALL-E 3)中的修复功能,您可以选择区域并通过进一步的文本输入更改它们,但在 StableDrag 中移动点可以保证更精确的编辑。
Apple 在 MGIE 上采取了不同的方法,它允许进行广泛的图像操作,例如通过文本提示添加、删除或更改对象,即使没有标记区域也是如此。
总结
  • 南京大学和腾讯的研究人员开发了 StableDrag,这是一种基于点的图像编辑新方法,可以轻松地将元素移动到图像中的新位置,同时保持正确的视角。
  • StableDrag 基于 FreeDrag、DragDiffusion 和 Drag-GAN 等现有模型构建,在编辑面部、汽车、风景或动物等各种图案时,在基准测试中提供了显着更好的结果。
  • 这为用户提供了更简单的图像操作选择,而不必依赖不准确的文本提示实现。

评论
  • Twikoo