UNO 多图像多主体可控性图像生成
792
3
43

图生图

UNO ComfyUI 插件同步开源
https://github.com/HM-RunningHub/ComfyUI_RH_UNO
功能特性
支持 flux-dev-fp8 和 flux-schnell-fp8
支持在24g gpu上跑bf16的flux-dev和flux-schnell

进度条
实时显示去噪进度
本地模型加载。不强行去hugginface下载模型，对CN环境更友好

默认使用schnell模型，4步推理，能较快速的生成
如果改成dev模型，需要改成25步推理

https://github.com/bytedance/UNO/tree/main

在这项研究中，我们提出了一条高度一致的数据合成管道，以应对这一挑战。该管道利用扩散变压器的固有内在生成能力，并生成高谐波多主体配对数据。此外，我们介绍了UNO，其中包括进行性跨模式比对和通用旋转位置嵌入。这是一个从文本到图像模型进行迭代训练的多图像对象模型。广泛的实验表明，我们的方法可以达到高稠度，同时确保单个受试者和多主体驱动的生成中的可控性。

In this study, we propose a highly-consistent data synthesis pipeline to tackle this challenge. This pipeline harnesses the intrinsic in-context generation capabilities of diffusion transformers and generates high-consistency multi-subject paired data. Additionally, we introduce UNO, which consists of progressive cross-modal alignment and universal rotary position embedding. It is a multi-image conditioned subject-to-image model iteratively trained from a text-to-image model. Extensive experiments show that our method can achieve high consistency while ensuring controllability in both single-subject and multi-subject driven generation.

792

下载

Epsilon

2025-04-11 更新

关注

图生图

Epsilon

2025-04-11 更新

关注

工作流介绍

默认使用schnell模型，4步推理，能较快速的生成
如果改成dev模型，需要改成25步推理

https://github.com/bytedance/UNO/tree/main

UNO 多图像多主体可控性图像生成 792343

图生图

UNO 多图像多主体可控性图像生成
792
3
43