稳定视频扩散是稳定扩散公司的开源 KI-Videomodell

type

status

date

slug

summary

稳定视频扩散以两种帧到视频模型的形式发布，每个模型都能够生成 14 和 25 帧，可自定义帧速率为每秒 3 到 30 帧。

视频扩散模型基于稳定扩散图像模型，由 Stability AI 在精心策划的专门策划的高质量视频数据集上进行训练。

它经历了三个阶段：文本到图像预训练、使用大量低分辨率视频数据集进行视频预训练，最后使用较小的高分辨率视频数据集进行视频微调。

据 Stability AI 称，截至本文发布时，其模型在用户偏好研究中的表现优于 RunwayML 和 Pika Labs 等领先的封闭模型。

然而，RunwayML 和 Pika Labs 最近的表现甚至更明显地被 Meta 的新视频模型 Emu Video 超越，Emu Video 的表现甚至更显着地优于上述两个模型，应该会进一步领先。然而，它仅作为研究论文提供。

在他们的论文中，研究人员还提出了一种方法来管理大量视频数据，并将大型、杂乱的视频集合转换为适合生成视频模型的数据集。

这种方法旨在促进用于视频生成的稳健基础模型的训练。

据说稳定视频扩散还可以轻松适应各种下游任务，包括从单个图像进行多视图合成，并在多视图数据集上进行微调。

Stability AI计划开发一个模型生态系统，并在此基础上构建和扩展，类似于Stable Diffusion。

Stable Video Diffusion 最初将仅作为研究版本发布到 Github，以收集有关安全性和质量的见解和反馈，并完善最终版本的模型。这些权重可在 HuggingFace 上找到。

此版本中的模型不适用于实际或商业应用。最终模型应该可以像稳定扩散一样自由使用。

除了发布研究版本外，Stability AI 还为具有文本到视频界面的新网络体验开放了等待名单。该工具旨在促进稳定视频扩散在广告、教育和娱乐等各个领域的实际应用。

Stability AI 最近通过 LLM 发布了用于 3D 生成、音频生成和文本生成的开源模型。

Ai-皇帝