
LTX-2 开源AI 视频生成模型
LTX-2 是 Lightricks 于 2026 年 1 月 6 日开源的生产级音视频联合生成基础模型,以 19B 参数 DiT 架构实现原生 4K、最长 20 秒音画同步生成,支持文生视频 / 图生视频 / 多关键帧控制,适配消费级 NVIDIA GPU 并原生兼容 ComfyUI,是开源领域首个能覆盖专业生产全流程的音视频模型。
--------------------------------------------------
LTX-2 模型 Checkpoints 版本说明
ltx-2-19b-dev完整模型,支持bf16格 式,灵活且可训练
ltx-2-19b-dev-fp8完整模型,采用fp8量化
ltx-2-19b-dev-fp4完整模型,采用nvfp4量化
ltx-2-19b-distilled完整模型的蒸馏版本,仅需8步,C F G=1
ltx-2-19b-distilled-lora-384蒸馏模型的LoRA版本,可应用于完整模型
ltx-2-spatial-upscaler-x2-1.0针对ltx-2潜在表示的空间x2放大器, 用于多阶段(多尺度)流程以生成更高分辨率
ltx-2-temporal-upscaler-x2-1.0针对ltx-2潜在表示的时间 x2放大器,用于多阶段(多尺度)流程以生成更高帧率
--------------------------------------------------
LTX-2 AI视频生成模型
Lightricks团队2026年1月7日正式开源的AI视频生成模型LTX-2(被誉为开源版“Veo3”),核心是解读其技术突破、优势及应用价值,具体总结如下:
一、核心定位与发布信息
定位:首个全开源、全权重、生产级音视频同步生成模型,面向创意与专业制作,覆盖从头脑风暴到影视级交付的全流程。
发布时间:2026年1月6日正式开源,权重与代码托管于GitHub、HuggingFace。
许可:开放权重、训练/推理代码与微调能力,支持商用与二次开发。
部署:支持浏览器演示、本地部署(RTX优化)、云API调用(Fal、Replicate等)。
二、核心开源支持
LTX-2是首个真正完整的开源音视频基础模型,填补了开源领域音视频联合生成的空白,推动高端AI视频生成从云端封闭走向本地开源民主化。
开源资源全面:模型权重、完整训练代码、基准测试及工具包已托管于GitHub和Hugging Face,开发者可自由检查、微调和本地部署;发布当日ComfyUI即原生支持,提供现成工作流,降低上手门槛。
三、技术架构与核心能力
技术架构
双流DiT架构总参数量19B:视频流14B、音频流5B,通过双向音视频交叉注意力与跨模态AdaLN实现时序对齐与联合生成。模态感知CFG(modality-CFG)提升音画语义一致性,多语言文本编码器增强提示理解。
核心技术亮点
1. 音画同步一体化:无需后处理,单一流程联合生成视觉与声音,实现动作、对白、环境音效、音乐的自然对齐,口型同步和表情表现逼真,人物对话场景高度还原。
2. 高清长时生成:支持原生4K分辨率、最高50fps帧率,最长可一次性生成20秒连续视频片段,皮肤质感和运动流畅度优于多数开源竞品。
3. 输入模态灵活:可基于文字、图片或草图驱动生成,还支持Canny、Depth、Pose等视频到视频控制及多关键帧控制,能实现精确叙事和风格一致性。
音视频同步生成能力
单流程联合生成画面、对话、环境音效、配乐,支持口型同步与情绪适配,无需后期拼接。音频覆盖人声、背景音、拟音,跟随场景与角**绪动态调整。
规格与画质
原生4K(2160p),最高50fps,最长20秒连续片段,支持720p/1080p/4K原生渲染,无额外放大。
三种模式:Fast(快速迭代,秒级出片)、Pro(团队协作,质量与速度平衡)、Ultra(影视级,4K 50fps)。
四、性能优化优势
1. 计算成本降低最高50%,多GPU推理栈支持长序列扩展;量化版本进一步降低显存需求,适配NVIDIA RTX消费级显卡,RTX40系列及以上可流畅运行。
2. 生成效率高:10-20秒视频生成仅需数分钟,甚至支持实时预览,普通用户无需企业级硬件即可体验专业级输出。
五、应用场景与潜力
适用领域广泛,涵盖内容创作、动画制作、营销广告、影视预演等。未来随着社区LoRA和插件扩展,有望成为开源AI视频生态的核心引擎,推动短视频到长形式内容的创新。
六、行业意义
LTX-2的开源不仅是AI视频生成领域的技术飞跃,更是AI视频民主化的关键一步,极大降低了创作者门槛,加速了本地AI工具的普及。
七、局限性
1. 本模型并非用于提供事实性信息,也不具备此能力。
2. 作为统计模型,该检查点可能会放大现有的社会偏见。
3. 模型可能无法完美生成与提示完全匹配的视频。
4. 提示跟随效果在很大程度上受提示风格影响。
5. 模型可能生成不当或冒犯性内容。
6. 在生成不含语音的音频时,音频质量可能较低。
LTX-2 开源AI 视频生成模型
LTX-2 是 Lightricks 于 2026 年 1 月 6 日开源的生产级音视频联合生成基础模型,以 19B 参数 DiT 架构实现原生 4K、最长 20 秒音画同步生成,支持文生视频 / 图生视频 / 多关键帧控制,适配消费级 NVIDIA GPU 并原生兼容 ComfyUI,是开源领域首个能覆盖专业生产全流程的音视频模型。
--------------------------------------------------
LTX-2 模型 Checkpoints 版本说明
ltx-2-19b-dev完整模型,支持bf16格 式,灵活且可训练
ltx-2-19b-dev-fp8完整模型,采用fp8量化
ltx-2-19b-dev-fp4完整模型,采用nvfp4量化
ltx-2-19b-distilled完整模型的蒸馏版本,仅需8步,C F G=1
ltx-2-19b-distilled-lora-384蒸馏模型的LoRA版本,可应用于完整模型
ltx-2-spatial-upscaler-x2-1.0针对ltx-2潜在表示的空间x2放大器, 用于多阶段(多尺度)流程以生成更高分辨率
ltx-2-temporal-upscaler-x2-1.0针对ltx-2潜在表示的时间 x2放大器,用于多阶段(多尺度)流程以生成更高帧率
--------------------------------------------------
LTX-2 AI视频生成模型
Lightricks团队2026年1月7日正式开源的AI视频生成模型LTX-2(被誉为开源版“Veo3”),核心是解读其技术突破、优势及应用价值,具体总结如下:
一、核心定位与发布信息
定位:首个全开源、全权重、生产级音视频同步生成模型,面向创意与专业制作,覆盖从头脑风暴到影视级交付的全流程。
发布时间:2026年1月6日正式开源,权重与代码托管于GitHub、HuggingFace。
许可:开放权重、训练/推理代码与微调能力,支持商用与二次开发。
部署:支持浏览器演示、本地部署(RTX优化)、云API调用(Fal、Replicate等)。
二、核心开源支持
LTX-2是首个真正完整的开源音视频基础模型,填补了开源领域音视频联合生成的空白,推动高端AI视频生成从云端封闭走向本地开源民主化。
开源资源全面:模型权重、完整训练代码、基准测试及工具包已托管于GitHub和Hugging Face,开发者可自由检查、微调和本地部署;发布当日ComfyUI即原生支持,提供现成工作流,降低上手门槛。
三、技术架构与核心能力
技术架构
双流DiT架构总参数量19B:视频流14B、音频流5B,通过双向音视频交叉注意力与跨模态AdaLN实现时序对齐与联合生成。模态感知CFG(modality-CFG)提升音画语义一致性,多语言文本编码器增强提示理解。
核心技术亮点
1. 音画同步一体化:无需后处理,单一流程联合生成视觉与声音,实现动作、对白、环境音效、音乐的自然对齐,口型同步和表情表现逼真,人物对话场景高度还原。
2. 高清长时生成:支持原生4K分辨率、最高50fps帧率,最长可一次性生成20秒连续视频片段,皮肤质感和运动流畅度优于多数开源竞品。
3. 输入模态灵活:可基于文字、图片或草图驱动生成,还支持Canny、Depth、Pose等视频到视频控制及多关键帧控制,能实现精确叙事和风格一致性。
音视频同步生成能力
单流程联合生成画面、对话、环境音效、配乐,支持口型同步与情绪适配,无需后期拼接。音频覆盖人声、背景音、拟音,跟随场景与角**绪动态调整。
规格与画质
原生4K(2160p),最高50fps,最长20秒连续片段,支持720p/1080p/4K原生渲染,无额外放大。
三种模式:Fast(快速迭代,秒级出片)、Pro(团队协作,质量与速度平衡)、Ultra(影视级,4K 50fps)。
四、性能优化优势
1. 计算成本降低最高50%,多GPU推理栈支持长序列扩展;量化版本进一步降低显存需求,适配NVIDIA RTX消费级显卡,RTX40系列及以上可流畅运行。
2. 生成效率高:10-20秒视频生成仅需数分钟,甚至支持实时预览,普通用户无需企业级硬件即可体验专业级输出。
五、应用场景与潜力
适用领域广泛,涵盖内容创作、动画制作、营销广告、影视预演等。未来随着社区LoRA和插件扩展,有望成为开源AI视频生态的核心引擎,推动短视频到长形式内容的创新。
六、行业意义
LTX-2的开源不仅是AI视频生成领域的技术飞跃,更是AI视频民主化的关键一步,极大降低了创作者门槛,加速了本地AI工具的普及。
七、局限性
1. 本模型并非用于提供事实性信息,也不具备此能力。
2. 作为统计模型,该检查点可能会放大现有的社会偏见。
3. 模型可能无法完美生成与提示完全匹配的视频。
4. 提示跟随效果在很大程度上受提示风格影响。
5. 模型可能生成不当或冒犯性内容。
6. 在生成不含语音的音频时,音频质量可能较低。