
FireRed-Image-Edit 是小红书 Super Intelligence 团队(FireRedTeam)于 2026 年 2 月 14 日 开源的通用型文本引导图像编辑模型,基于扩散 Transformer 架构,主打高保真、强指令跟随、全局一致性,在多项开源图像编辑基准中达到 SOTA(当前最优),部分指标接近闭源商业模型。
FireRed-Image-Edit 是一款通用型图像编辑模型,可在多类编辑场景下实现高保真、一致性的图像编辑效果,在开源图像编辑模型中表现领先。

FireRed-Image-Edit技术背景:从全局生成到局部推理
传统的图像编辑模型在执行“局部修改”时,往往容易造成非目标区域的语义漂移(例如修了衣服,背景却变了)。
FireRed-Image-Edit 引入了名为 FireEdit 的架构,其核心是区域感知(Region-aware)机制。通过视觉语言模型(VLM)与扩散模型的结合,系统尝试在理解用户指令的同时,更精准地锁定需要编辑的空间坐标。这种设计旨在解决复杂指令下,局部修改与全局画面和谐度之间的平衡问题。

核心特性
编辑性能优异:指令跟随精准、生成图像画质高,视觉连贯性强,开源模型中表现领跑
原生编辑能力:基于文本到图像基础模型直接构建,原生赋予图像编辑能力
文本风格高保真:可高度还原图像中的文本样式,效果媲美闭源解决方案
老照片修复:实现高质量的老照片修复与画质增强
多图像灵活编辑:支持虚拟试穿等多图像联动的灵活编辑场景


文字编辑
FireRed-Image-Edit创新性地提出了Layout-Aware OCR-based Reward。
在强化学习阶段,团队不仅惩罚错别字,还惩罚字符的错位、大小异常和布局崩坏。
这使得模型在进行海报修改、文字替换时,能更准确地进行编辑并保持原始文字风格。
示例:将海报上右下角的文字“ programme”修改为“program ongoing”,保持字体和风格一致。

创意与多图生成
同时依赖于强大的模型架构能力,FireRed-Image-Edit支持了创造力场景生成和多参考图生成的能力,支持风格迁移或多图融合。
基准测试
为验证模型能力,研发团队构建了REDEdit-Bench 基准测试集,该数据集聚焦更贴合人类语言习惯的多样化编辑场景与指令,可全面评估图像编辑模型的性能。数据集从互联网收集 3000 余张图像,经专家设计筛选,最终构建了涵盖 15 个分类、1673 组中英双语的图像编辑样本对。

FireRed-Image-Edit 是小红书 Super Intelligence 团队(FireRedTeam)于 2026 年 2 月 14 日 开源的通用型文本引导图像编辑模型,基于扩散 Transformer 架构,主打高保真、强指令跟随、全局一致性,在多项开源图像编辑基准中达到 SOTA(当前最优),部分指标接近闭源商业模型。
FireRed-Image-Edit 是一款通用型图像编辑模型,可在多类编辑场景下实现高保真、一致性的图像编辑效果,在开源图像编辑模型中表现领先。

FireRed-Image-Edit技术背景:从全局生成到局部推理
传统的图像编辑模型在执行“局部修改”时,往往容易造成非目标区域的语义漂移(例如修了衣服,背景却变了)。
FireRed-Image-Edit 引入了名为 FireEdit 的架构,其核心是区域感知(Region-aware)机制。通过视觉语言模型(VLM)与扩散模型的结合,系统尝试在理解用户指令的同时,更精准地锁定需要编辑的空间坐标。这种设计旨在解决复杂指令下,局部修改与全局画面和谐度之间的平衡问题。

核心特性
编辑性能优异:指令跟随精准、生成图像画质高,视觉连贯性强,开源模型中表现领跑
原生编辑能力:基于文本到图像基础模型直接构建,原生赋予图像编辑能力
文本风格高保真:可高度还原图像中的文本样式,效果媲美闭源解决方案
老照片修复:实现高质量的老照片修复与画质增强
多图像灵活编辑:支持虚拟试穿等多图像联动的灵活编辑场景


文字编辑
FireRed-Image-Edit创新性地提出了Layout-Aware OCR-based Reward。
在强化学习阶段,团队不仅惩罚错别字,还惩罚字符的错位、大小异常和布局崩坏。
这使得模型在进行海报修改、文字替换时,能更准确地进行编辑并保持原始文字风格。
示例:将海报上右下角的文字“ programme”修改为“program ongoing”,保持字体和风格一致。

创意与多图生成
同时依赖于强大的模型架构能力,FireRed-Image-Edit支持了创造力场景生成和多参考图生成的能力,支持风格迁移或多图融合。
基准测试
为验证模型能力,研发团队构建了REDEdit-Bench 基准测试集,该数据集聚焦更贴合人类语言习惯的多样化编辑场景与指令,可全面评估图像编辑模型的性能。数据集从互联网收集 3000 余张图像,经专家设计筛选,最终构建了涵盖 15 个分类、1673 组中英双语的图像编辑样本对。
