Stable Video Diffusion是Stability AI发布的视频生成大模型,于2023年11月正式发布。
基于Stability AI原有的Stable Diffusion文生图模型,Stable Video Diffusion可实现文生视频。
Stable Video Diffusion能够适应各种下游任务,包括多视图合成,Stability AI计划扩展这个基础,建立各种模型。该模型以两种形式发布,可以生成14和25帧的视频,帧率可定制。
一、多阶段训练策略
Stable Video Diffusion采用了多阶段的训练策略,包括文本到图像的预训练、视频预训练以及高质量视频微调。这种分阶段的训练方法使得模型能够逐步学习到从文本到图像,再到视频的复杂映射关系,提高了生成视频的质量和准确性。
二、强大的基础模型
该技术在训练过程中,借助精心准备的大规模数据集和系统化的策划流程,构建了一个强大的基础模型。这个基础模型不仅为下游任务提供了强大的运动表征,还具备多视图3D先验能力,为生成多个视图的对象提供基础。
三、高效的数据处理和过滤策略
Stable Video Diffusion在数据处理方面采用了多种策略,包括使用密集光流来注释数据集、应用光学字符识别来清除包含大量文本的剪辑等。这些策略有效地提高了数据集的质量,去除了可能对模型性能产生负面影响的示例。同时,通过CLIP嵌入来注释每个剪辑的关键帧,进一步丰富了数据集的信息量。
四、灵活的应用场景
由于Stable Video Diffusion提供了强大的多视图3D先验和运动表征能力,它可以广泛应用于各种场景,包括文本到视频的生成、图像到视频的生成以及对摄像机运动特定的适应性等。此外,该模型还可以以前馈方式生成对象的多个视图,具有较小的算力需求和优于基于图像方法的性能。
五、高质量的生成效果
通过多阶段的训练策略和精心准备的数据集,Stable Video Diffusion能够生成高质量、动作连贯且时间一致的视频内容。