type
status
date
slug
summary
tags
category
icon
password
URL
Fairy by Meta 是一种快速的视频到视频合成模型,展示了人工智能如何在视频编辑中创造更多的创作自由
Meta 的 GenAI 团队推出了 Fairy,这是一种用于视频到视频合成的新模型,它比现有模型更快,并且具有更高的时间相干性。
研究团队在角色/对象交换、风格化和长视频生成等各种应用中引入了 Fairy。
要编辑原始视频,简单的文本命令就足够了,正如从图像系统中已知的那样,例如“以梵高的风格”。文本命令“变成雪人”将视频中的宇航员变成雪人。
视觉连贯性特别具有挑战性,因为有无数种方法可以根据相同的提示来更改给定的图像。
为此,Fairy 使用跨图像注意力隐式跟踪相应区域并传输全局特征以减少帧之间的差异。
该模型可以在短短 14 秒内生成 512x384 像素、120 帧的视频(4 秒,每秒 30 帧),比之前的模型快至少 44 倍。与 Meta 的 Emu 视频模型一样,Fairy 基于图像处理的扩散模型,该模型已扩展用于视频编辑。
Fairy 处理源视频的所有帧,无需时间下采样或帧插值,并将输出视频的长边大小调整为 512,同时保持宽高比。
在使用 6 个 A100 GPU 的测试中,Fairy 能够在 71.89 秒内渲染出 27 秒的视频,并且视觉一致性很高。
Fairy 的性能在广泛的用户研究中通过了 1000 个生成的样本进行了测试。
人类判断和定量指标都证实 Fairy 比 Reender、TokenFlow 和 Gen-1 三种模型具有更好的质量。
Fairy仍然存在动态效果问题
该模型目前存在雨、火或闪电等环境影响的问题,这些影响要么与整体图像不一致,要么只是产生视觉错误。
研究人员表示,这又是由于对时间一致性的关注,这导致闪电或火焰等动态视觉效果显得静态或停滞,而不是动态和流体。
尽管如此,研究团队认为自己的工作是人工智能视频编辑领域的重大进步,采用了时间一致性和高质量视频合成的变革性方法。
总结
- Meta 的 GenAI 团队推出了 Fairy,这是一种快速视频到视频合成模型,与现有模型相比,速度更快且时间相干性更高。
- Fairy 利用帧间注意力来减少帧之间的差异,并且可以在短短 14 秒内生成 4 秒的视频,比之前的模型快 44 倍。
- 尽管取得了这些进步,Fairy 仍然在努力应对动态环境影响,例如雨、火或闪电,这些影响要么不一致,要么导致视觉错误。
- 作者:Ai-皇帝
- 链接:https://www.ai-hd.com/article/286f40d2-5788-46d6-9300-41ead5e5e4c4
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。