Wan21 CausVid 14B T2V lora rank32
返回

Wan21 CausVid 14B T2V lora rank32
0 1 27

摄影

Wan21 CausVid 14B T2V lora rank32
  1. 基础模型:Wan2.1-T2V-14B

    • 架构:采用扩散Transformer(DiT)框架,结合因果3D变分自编码器(Wan-VAE),支持1080P视频无损压缩与长时序生成710。

    • 性能:在VBench评测中以86.22%总分超越Sora等模型,尤其在物理规律还原(如流体、碰撞)和运动连贯性上表现突出35。

    • 多语言支持:唯一支持中英双语文本嵌入的视频生成模型,可动态生成文字特效(如广告字幕)710。

  2. LoRA微调机制

    • 原理:通过低秩适配(Low-Rank Adaptation)注入少量可训练参数(约0.1%原始参数量),冻结原模型权重,仅调整适配层实现风格/主题迁移9。

    • Rank32含义:指适配矩阵的秩(Rank)为32,平衡了训练效率与表达能力——更高Rank提升拟合能力但增加显存占用,Rank32适合消费级GPU(如RTX 4090)910。

    • 训练工具:基于 Diffusion-Pipe 管道并行框架,支持单卡(如A10G)微调,需10-15张带标注图片(每图配文本描述+固定触发词)9。

此模型源自站外搬运(搬运地址: https://github.com/Wan-Video/Wan2.1 ),若原作者对于本次搬运的结果存在异议,可点
申诉
我们会在 24 小时内,按照原作者的要求,对本模型展开编辑、删除或是转移给原作者等相关处理。由衷欢迎原作者入驻本站,共建 AI绘图的学习交流社区。

user_m0f4opea

user_m0f4opea

摄影

模型信息

原创作者:
阿里巴巴
模型类型:
LoRA
基础模型:
WAN2.1
文件名称:
models/loras/Wan21_CausVid_14B_T2V_lora_rank32.safetensors
MD5:
a01352e232d437f3edacb3f89a5396b0
  1. 基础模型:Wan2.1-T2V-14B

    • 架构:采用扩散Transformer(DiT)框架,结合因果3D变分自编码器(Wan-VAE),支持1080P视频无损压缩与长时序生成710。

    • 性能:在VBench评测中以86.22%总分超越Sora等模型,尤其在物理规律还原(如流体、碰撞)和运动连贯性上表现突出35。

    • 多语言支持:唯一支持中英双语文本嵌入的视频生成模型,可动态生成文字特效(如广告字幕)710。

  2. LoRA微调机制

    • 原理:通过低秩适配(Low-Rank Adaptation)注入少量可训练参数(约0.1%原始参数量),冻结原模型权重,仅调整适配层实现风格/主题迁移9。

    • Rank32含义:指适配矩阵的秩(Rank)为32,平衡了训练效率与表达能力——更高Rank提升拟合能力但增加显存占用,Rank32适合消费级GPU(如RTX 4090)910。

    • 训练工具:基于 Diffusion-Pipe 管道并行框架,支持单卡(如A10G)微调,需10-15张带标注图片(每图配文本描述+固定触发词)9。

此模型源自站外搬运(搬运地址: https://github.com/Wan-Video/Wan2.1 ),若原作者对于本次搬运的结果存在异议,可点
申诉
我们会在 24 小时内,按照原作者的要求,对本模型展开编辑、删除或是转移给原作者等相关处理。由衷欢迎原作者入驻本站,共建 AI绘图的学习交流社区。