Wan:开放且先进的大规模视频生成模型

在此存储库中,我们展示了Wan2.1,这是一套全面而开放的视频基础模型,它突破了视频生成的界限。Wan2.1提供以下主要功能:

  • 👍 SOTA 性能Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
  • 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。它可在约 4 分钟内(未使用量化等优化技术)在 RTX 4090 上生成 5 秒的 480P 视频。其性能甚至可与一些闭源模型相媲美。
  • 👍多项任务Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。
  • 👍视觉文本生成Wan2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。
  • 👍强大的视频 VAEWan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础