Ltx2.3-VBVR-lora-I2V
返回

Ltx2.3-VBVR-lora-I2V
15.3K 12 86

摄影

品牌及视觉设计

写实

幻想

女生

男生

人物加强

其他

Ltx2.3-VBVR-lora-I2V

【LTX-2.3 VBVR LoRA - 视频推理】

在 VBVR(视频推理基准)数据集上对 LTX-2.3 22B 模型进行 LoRA 微调得到的权重。

【训练数据】

为确保训练质量,我们对官方数据集中的全部 1,000,000 个视频进行了预处理,并在训练过程中随机采样以保持数据多样性。我们采用官方参数设置,batch_size=16 且 rank=32,以防止因 rank 过大而导致灾难性遗忘。

VBVR 数据集包含 200 种推理任务类别,每类任务约有 5,000 个变体,总计约 100 万条视频。主要任务类型包括:

物体轨迹:物体移动至目标位置
物理推理:滚动球体、碰撞、重力
因果关系:条件触发、连锁反应
空间关系:相对位置、路径规划

【模型详情】
基础模型:ltx-2.3-22b-dev
训练方法:LoRA 微调
LoRA:Rank32
有效批大小:16
混合精度:BF16


【LoRA 能力】

该 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的能力:

增强的复杂提示理解能力:能够准确解析包含多对象、多条件、详细空间描述和时间序列的提示,在生产场景中减少提示误读。

改进的运动动态效果:生成平滑且符合物理规律的物体运动,具有自然的加速、减速和轨迹曲线,避免机械或不自然的运动模式。

时间一致性:在整个视频序列中保持物体外观、光照和场景连贯性,减少生成视频中常见的闪烁和帧间伪影。

精确的时间控制:可根据提示语义,精准控制动作持续时间、节奏以及多个运动元素之间的同步。

多物体交互:能够处理多个物体同时交互的复杂场景,包括碰撞、跟随、避让和协同运动。

摄像机与构图稳定性:在整个序列中保持一致的摄像机视角和画面构图,避免不必要的镜头抖动或意外的视角变化。

【训练配置】

配置项 值
学习率 1e-4
调度器 Cosine
梯度累积 16 步
梯度裁剪 1.0
优化器 AdamW

此模型源自站外搬运(搬运地址: https://www.modelscope.cn/models/LiconStudio/Ltx2.3-VBVR-lora-I2V/ ),若原作者对于本次搬运的结果存在异议,可点
申诉
我们会在 24 小时内,按照原作者的要求,对本模型展开编辑、删除或是转移给原作者等相关处理。由衷欢迎原作者入驻本站,共建 AI绘图的学习交流社区。

Dream2046

Dream2046

摄影

品牌及视觉设计

写实

幻想

女生

男生

人物加强

其他

模型信息

未冻结
原创作者:
LiconStudio
模型类型:
LoRA
基础模型:
LTX2.3
文件名称:
models/loras/Ltx2.3-Licon-VBVR-I2V-LoRA-96000-R32.safetensors
MD5:
4503f395196bd026ed50b1731e6b48c7

【LTX-2.3 VBVR LoRA - 视频推理】

在 VBVR(视频推理基准)数据集上对 LTX-2.3 22B 模型进行 LoRA 微调得到的权重。

【训练数据】

为确保训练质量,我们对官方数据集中的全部 1,000,000 个视频进行了预处理,并在训练过程中随机采样以保持数据多样性。我们采用官方参数设置,batch_size=16 且 rank=32,以防止因 rank 过大而导致灾难性遗忘。

VBVR 数据集包含 200 种推理任务类别,每类任务约有 5,000 个变体,总计约 100 万条视频。主要任务类型包括:

物体轨迹:物体移动至目标位置
物理推理:滚动球体、碰撞、重力
因果关系:条件触发、连锁反应
空间关系:相对位置、路径规划

【模型详情】
基础模型:ltx-2.3-22b-dev
训练方法:LoRA 微调
LoRA:Rank32
有效批大小:16
混合精度:BF16


【LoRA 能力】

该 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的能力:

增强的复杂提示理解能力:能够准确解析包含多对象、多条件、详细空间描述和时间序列的提示,在生产场景中减少提示误读。

改进的运动动态效果:生成平滑且符合物理规律的物体运动,具有自然的加速、减速和轨迹曲线,避免机械或不自然的运动模式。

时间一致性:在整个视频序列中保持物体外观、光照和场景连贯性,减少生成视频中常见的闪烁和帧间伪影。

精确的时间控制:可根据提示语义,精准控制动作持续时间、节奏以及多个运动元素之间的同步。

多物体交互:能够处理多个物体同时交互的复杂场景,包括碰撞、跟随、避让和协同运动。

摄像机与构图稳定性:在整个序列中保持一致的摄像机视角和画面构图,避免不必要的镜头抖动或意外的视角变化。

【训练配置】

配置项 值
学习率 1e-4
调度器 Cosine
梯度累积 16 步
梯度裁剪 1.0
优化器 AdamW

此模型源自站外搬运(搬运地址: https://www.modelscope.cn/models/LiconStudio/Ltx2.3-VBVR-lora-I2V/ ),若原作者对于本次搬运的结果存在异议,可点
申诉
我们会在 24 小时内,按照原作者的要求,对本模型展开编辑、删除或是转移给原作者等相关处理。由衷欢迎原作者入驻本站,共建 AI绘图的学习交流社区。