LTX-2图生视频工作流
68
3
3

图生视频

LTX-2 开源AI 视频生成模型

LTX-2 是 Lightricks 于 2026 年 1 月 6 日开源的生产级音视频联合生成基础模型，以 19B 参数 DiT 架构实现原生 4K、最长 20 秒音画同步生成，支持文生视频 / 图生视频 / 多关键帧控制，适配消费级 NVIDIA GPU 并原生兼容 ComfyUI，是开源领域首个能覆盖专业生产全流程的音视频模型。

--------------------------------------------------

LTX-2 模型 Checkpoints 版本说明

ltx-2-19b-dev完整模型，支持bf16格式，灵活且可训练

ltx-2-19b-dev-fp8完整模型，采用fp8量化

ltx-2-19b-dev-fp4完整模型，采用nvfp4量化

ltx-2-19b-distilled完整模型的蒸馏版本，仅需8步，C F G=1

ltx-2-19b-distilled-lora-384蒸馏模型的LoRA版本，可应用于完整模型

ltx-2-spatial-upscaler-x2-1.0针对ltx-2潜在表示的空间x2放大器，用于多阶段（多尺度）流程以生成更高分辨率

ltx-2-temporal-upscaler-x2-1.0针对ltx-2潜在表示的时间 x2放大器，用于多阶段（多尺度）流程以生成更高帧率

--------------------------------------------------

LTX-2 AI视频生成模型

Lightricks团队2026年1月7日正式开源的AI视频生成模型LTX-2（被誉为开源版“Veo3”），核心是解读其技术突破、优势及应用价值，具体总结如下：

一、核心定位与发布信息

定位：首个全开源、全权重、生产级音视频同步生成模型，面向创意与专业制作，覆盖从头脑风暴到影视级交付的全流程。

发布时间：2026年1月6日正式开源，权重与代码托管于GitHub、HuggingFace。

许可：开放权重、训练/推理代码与微调能力，支持商用与二次开发。

部署：支持浏览器演示、本地部署（RTX优化）、云API调用（Fal、Replicate等）。

二、核心开源支持

LTX-2是首个真正完整的开源音视频基础模型，填补了开源领域音视频联合生成的空白，推动高端AI视频生成从云端封闭走向本地开源民主化。

开源资源全面：模型权重、完整训练代码、基准测试及工具包已托管于GitHub和Hugging Face，开发者可自由检查、微调和本地部署；发布当日ComfyUI即原生支持，提供现成工作流，降低上手门槛。

三、技术架构与核心能力

技术架构

双流DiT架构总参数量19B：视频流14B、音频流5B，通过双向音视频交叉注意力与跨模态AdaLN实现时序对齐与联合生成。模态感知CFG（modality-CFG）提升音画语义一致性，多语言文本编码器增强提示理解。

核心技术亮点

1. 音画同步一体化：无需后处理，单一流程联合生成视觉与声音，实现动作、对白、环境音效、音乐的自然对齐，口型同步和表情表现逼真，人物对话场景高度还原。

2. 高清长时生成：支持原生4K分辨率、最高50fps帧率，最长可一次性生成20秒连续视频片段，皮肤质感和运动流畅度优于多数开源竞品。

3. 输入模态灵活：可基于文字、图片或草图驱动生成，还支持Canny、Depth、Pose等视频到视频控制及多关键帧控制，能实现精确叙事和风格一致性。

音视频同步生成能力

单流程联合生成画面、对话、环境音效、配乐，支持口型同步与情绪适配，无需后期拼接。音频覆盖人声、背景音、拟音，跟随场景与角**绪动态调整。

规格与画质

原生4K（2160p），最高50fps，最长20秒连续片段，支持720p/1080p/4K原生渲染，无额外放大。

三种模式：Fast（快速迭代，秒级出片）、Pro（团队协作，质量与速度平衡）、Ultra（影视级，4K 50fps）。

四、性能优化优势

1. 计算成本降低最高50%，多GPU推理栈支持长序列扩展；量化版本进一步降低显存需求，适配NVIDIA RTX消费级显卡，RTX40系列及以上可流畅运行。

2. 生成效率高：10-20秒视频生成仅需数分钟，甚至支持实时预览，普通用户无需企业级硬件即可体验专业级输出。

五、应用场景与潜力

适用领域广泛，涵盖内容创作、动画制作、营销广告、影视预演等。未来随着社区LoRA和插件扩展，有望成为开源AI视频生态的核心引擎，推动短视频到长形式内容的创新。

六、行业意义

LTX-2的开源不仅是AI视频生成领域的技术飞跃，更是AI视频民主化的关键一步，极大降低了创作者门槛，加速了本地AI工具的普及。

七、局限性

1. 本模型并非用于提供事实性信息，也不具备此能力。

2. 作为统计模型，该检查点可能会放大现有的社会偏见。

3. 模型可能无法完美生成与提示完全匹配的视频。

4. 提示跟随效果在很大程度上受提示风格影响。

5. 模型可能生成不当或冒犯性内容。

6. 在生成不含语音的音频时，音频质量可能较低。

下载

Dream2046

2026-01-10 更新

关注

图生视频

Dream2046

2026-01-10 更新

关注

工作流介绍

LTX-2 开源AI 视频生成模型

--------------------------------------------------

LTX-2 模型 Checkpoints 版本说明

ltx-2-19b-dev完整模型，支持bf16格式，灵活且可训练

ltx-2-19b-dev-fp8完整模型，采用fp8量化

ltx-2-19b-dev-fp4完整模型，采用nvfp4量化

ltx-2-19b-distilled完整模型的蒸馏版本，仅需8步，C F G=1

ltx-2-19b-distilled-lora-384蒸馏模型的LoRA版本，可应用于完整模型

ltx-2-spatial-upscaler-x2-1.0针对ltx-2潜在表示的空间x2放大器，用于多阶段（多尺度）流程以生成更高分辨率

ltx-2-temporal-upscaler-x2-1.0针对ltx-2潜在表示的时间 x2放大器，用于多阶段（多尺度）流程以生成更高帧率

--------------------------------------------------

LTX-2 AI视频生成模型

Lightricks团队2026年1月7日正式开源的AI视频生成模型LTX-2（被誉为开源版“Veo3”），核心是解读其技术突破、优势及应用价值，具体总结如下：

一、核心定位与发布信息

定位：首个全开源、全权重、生产级音视频同步生成模型，面向创意与专业制作，覆盖从头脑风暴到影视级交付的全流程。

发布时间：2026年1月6日正式开源，权重与代码托管于GitHub、HuggingFace。

许可：开放权重、训练/推理代码与微调能力，支持商用与二次开发。

部署：支持浏览器演示、本地部署（RTX优化）、云API调用（Fal、Replicate等）。

二、核心开源支持

LTX-2是首个真正完整的开源音视频基础模型，填补了开源领域音视频联合生成的空白，推动高端AI视频生成从云端封闭走向本地开源民主化。

三、技术架构与核心能力

技术架构

核心技术亮点

2. 高清长时生成：支持原生4K分辨率、最高50fps帧率，最长可一次性生成20秒连续视频片段，皮肤质感和运动流畅度优于多数开源竞品。

3. 输入模态灵活：可基于文字、图片或草图驱动生成，还支持Canny、Depth、Pose等视频到视频控制及多关键帧控制，能实现精确叙事和风格一致性。

音视频同步生成能力

规格与画质

原生4K（2160p），最高50fps，最长20秒连续片段，支持720p/1080p/4K原生渲染，无额外放大。

三种模式：Fast（快速迭代，秒级出片）、Pro（团队协作，质量与速度平衡）、Ultra（影视级，4K 50fps）。

四、性能优化优势

1. 计算成本降低最高50%，多GPU推理栈支持长序列扩展；量化版本进一步降低显存需求，适配NVIDIA RTX消费级显卡，RTX40系列及以上可流畅运行。

2. 生成效率高：10-20秒视频生成仅需数分钟，甚至支持实时预览，普通用户无需企业级硬件即可体验专业级输出。

五、应用场景与潜力

六、行业意义

LTX-2的开源不仅是AI视频生成领域的技术飞跃，更是AI视频民主化的关键一步，极大降低了创作者门槛，加速了本地AI工具的普及。

七、局限性

1. 本模型并非用于提供事实性信息，也不具备此能力。

2. 作为统计模型，该检查点可能会放大现有的社会偏见。

3. 模型可能无法完美生成与提示完全匹配的视频。

4. 提示跟随效果在很大程度上受提示风格影响。

5. 模型可能生成不当或冒犯性内容。

6. 在生成不含语音的音频时，音频质量可能较低。

LTX-2图生视频工作流 6833

图生视频

LTX-2图生视频工作流
68
3
3