Meta 的视频模型“Fairy”让您领略 AI 支持的视频编辑

type

status

date

slug

summary

Meta 的 GenAI 团队推出了 Fairy，这是一种用于视频到视频合成的新模型，它比现有模型更快，并且具有更高的时间相干性。

研究团队在角色/对象交换、风格化和长视频生成等各种应用中引入了 Fairy。

要编辑原始视频，简单的文本命令就足够了，正如从图像系统中已知的那样，例如“以梵高的风格”。文本命令“变成雪人”将视频中的宇航员变成雪人。

视频：Meta

视觉连贯性特别具有挑战性，因为有无数种方法可以根据相同的提示来更改给定的图像。

为此，Fairy 使用跨图像注意力隐式跟踪相应区域并传输全局特征以减少帧之间的差异。

该模型可以在短短 14 秒内生成 512x384 像素、120 帧的视频（4 秒，每秒 30 帧），比之前的模型快至少 44 倍。与 Meta 的 Emu 视频模型一样，Fairy 基于图像处理的扩散模型，该模型已扩展用于视频编辑。

Fairy 处理源视频的所有帧，无需时间下采样或帧插值，并将输出视频的长边大小调整为 512，同时保持宽高比。

在使用 6 个 A100 GPU 的测试中，Fairy 能够在 71.89 秒内渲染出 27 秒的视频，并且视觉一致性很高。

Fairy 的性能在广泛的用户研究中通过了 1000 个生成的样本进行了测试。

人类判断和定量指标都证实 Fairy 比 Reender、TokenFlow 和 Gen-1 三种模型具有更好的质量。

Fairy仍然存在动态效果问题

该模型目前存在雨、火或闪电等环境影响的问题，这些影响要么与整体图像不一致，要么只是产生视觉错误。

研究人员表示，这又是由于对时间一致性的关注，这导致闪电或火焰等动态视觉效果显得静态或停滞，而不是动态和流体。

尽管如此，研究团队认为自己的工作是人工智能视频编辑领域的重大进步，采用了时间一致性和高质量视频合成的变革性方法。