https://github.com/bytedance/DreamFit


基于文本或图像提示,以服装为中心生成人体的扩散模型因其巨大的应用潜力而备受关注。然而,现有方法往往面临一个难题:轻量级方法(例如适配器)容易生成不一致的纹理;而基于微调的方法训练成本高昂,并且难以维持预训练扩散模型的泛化能力,从而限制了其在不同场景下的性能。为了应对这些挑战,我们提出了DreamFit,它集成了一个专为以服装为中心的人体生成量身定制的轻量级 Anything-Dressing 编码器。

DreamFit 具有三大主要优势:

轻量级训练:通过提出的自适应注意力和 LoRA 模块,DreamFit 将模型复杂度显著降低至 83.4M 个可训练参数。
任何着装:我们的模型出奇地适用于各种(非)服装、创意风格和提示说明,能够在各种场景中始终如一地提供高质量的结果。
即插即用:DreamFit 专为与任何用于传播模型的社区控制插件顺利集成而设计,确保轻松兼容并最大限度地减少采用障碍。
为了进一步提升生成质量,DreamFit 利用预训练的大型多模态模型 (LMM),通过细粒度的服装描述来丰富提示,从而缩小训练和推理之间的提示差距。我们对 768 × 512 高分辨率基准和自然场景图像进行了全面的实验。DreamFit 超越了所有现有方法,彰显了其以服装为中心的人体生成领域的领先优势。