真实感光影z-image-turbo-flow-dpo


Z-Image-Turbo 真实感光影 LoRA(Flow-DPO)
这是一个专为 Alibaba-Tongyi/Z-Image-Turbo 设计的 LoRA 适配器,采用 Flow-DPO(流匹配的直接偏好优化)进行微调,显著增强了真实感光影、电影级阴影和整体图像质量。
通过在空间严格对齐的图像对上应用 Flow-DPO,该 LoRA 有效解决了超快蒸馏模型中常见的“扁平”、“过曝”或“塑料感”等伪影问题,仅需 8 步推理 即可生成惊艳且物理准确的光照效果。
训练细节与方法论
该模型使用 Flow-DPO 的自定义实现进行训练(Improving Video Generation with Human Feedback, arXiv:2501.13918)。
1. 数据集(严格空间对齐)
为防止模型产生幻觉或改变图像结构(灾难性遗忘),偏好数据集采用了严格的空间对齐构建方式:
胜出样本(Chosen): 具有完美光影和纹理的高质量专业摄影作品。
失败样本(Rejected): 对完全相同的图像进行程序化降质处理(高斯模糊、降低对比度、极端曝光偏移、高斯噪声以及严重的 JPEG 压缩伪影)。
对齐方式: 未进行任何裁剪或扭曲操作,确保流匹配轨迹仅学习修正光影和纹理。
2. 离散时间步蒸馏保留
与标准扩散模型中连续采样时间步 t∈[0,1]t \in [0, 1]t∈[0,1] 不同,Z-Image-Turbo 是一个专门针对 8 个固定时间步 优化的 蒸馏模型。
在 Flow-DPO 训练过程中,我们动态提取了 FlowMatchEulerDiscreteScheduler 中精确的离散 ttt 分布,并将随机采样严格限制在这 8 个节点上。这确保了 LoRA 在保持 Turbo 模型极致速度的同时,不会导致输出模糊。
3. 超参数
基础模型: Alibaba-Tongyi/Z-Image-Turbo(6B 单流 DiT)
学习率: 1e-4
KL 惩罚项(β\betaβ): 1.0
有效批次大小: 1
局限性
非图像到图像修复器: 该 LoRA 修改的是文本到图像生成的 先验分布。其设计目标是从文本提示生成更优质的原始图像,而非作为 img2img 滤镜来修复用户上传的劣质照片(除非结合 RF-Inversion 技术,但该技术在 8 步模型中极不稳定)。
色彩饱和度
若 LoRA 强度过高(例如 > 1.5),由于 DPO 边界最大化特性,可能导致图像过度锐化或饱和度过高。为获得最佳真实感效果,请将强度保持在 0.6 - 1.0 范围内。
模型信息
Z-Image-Turbo 真实感光影 LoRA(Flow-DPO)
这是一个专为 Alibaba-Tongyi/Z-Image-Turbo 设计的 LoRA 适配器,采用 Flow-DPO(流匹配的直接偏好优化)进行微调,显著增强了真实感光影、电影级阴影和整体图像质量。
通过在空间严格对齐的图像对上应用 Flow-DPO,该 LoRA 有效解决了超快蒸馏模型中常见的“扁平”、“过曝”或“塑料感”等伪影问题,仅需 8 步推理 即可生成惊艳且物理准确的光照效果。
训练细节与方法论
该模型使用 Flow-DPO 的自定义实现进行训练(Improving Video Generation with Human Feedback, arXiv:2501.13918)。
1. 数据集(严格空间对齐)
为防止模型产生幻觉或改变图像结构(灾难性遗忘),偏好数据集采用了严格的空间对齐构建方式:
胜出样本(Chosen): 具有完美光影和纹理的高质量专业摄影作品。
失败样本(Rejected): 对完全相同的图像进行程序化降质处理(高斯模糊、降低对比度、极端曝光偏移、高斯噪声以及严重的 JPEG 压缩伪影)。
对齐方式: 未进行任何裁剪或扭曲操作,确保流匹配轨迹仅学习修正光影和纹理。
2. 离散时间步蒸馏保留
与标准扩散模型中连续采样时间步 t∈[0,1]t \in [0, 1]t∈[0,1] 不同,Z-Image-Turbo 是一个专门针对 8 个固定时间步 优化的 蒸馏模型。
在 Flow-DPO 训练过程中,我们动态提取了 FlowMatchEulerDiscreteScheduler 中精确的离散 ttt 分布,并将随机采样严格限制在这 8 个节点上。这确保了 LoRA 在保持 Turbo 模型极致速度的同时,不会导致输出模糊。
3. 超参数
基础模型: Alibaba-Tongyi/Z-Image-Turbo(6B 单流 DiT)
学习率: 1e-4
KL 惩罚项(β\betaβ): 1.0
有效批次大小: 1
局限性
非图像到图像修复器: 该 LoRA 修改的是文本到图像生成的 先验分布。其设计目标是从文本提示生成更优质的原始图像,而非作为 img2img 滤镜来修复用户上传的劣质照片(除非结合 RF-Inversion 技术,但该技术在 8 步模型中极不稳定)。
色彩饱和度
若 LoRA 强度过高(例如 > 1.5),由于 DPO 边界最大化特性,可能导致图像过度锐化或饱和度过高。为获得最佳真实感效果,请将强度保持在 0.6 - 1.0 范围内。