阿里巴巴和北京邮电大学联合推出的 FantasyTalking 项目，这是数字人项目的又一重大突破，仅需一张证件照，就能生成表情灵动、动作自然的数字人视频。

三大创新模块
视听对齐策略：捕捉音频与面部表情、身体动作、背景动态的全域关联性
面部交叉注意力：仅3%参数量锁定五官特征，10分钟视频身份偏移率<0.3%
运动强度调制网络：22组参数独立控制表情/肢体幅度（如眉毛高度、肩部摆动频率）
生成效果突破
支持9种生成模式：特写/半身/全身 + 正脸/侧脸/动态背景
覆盖真人/卡通/动物多风格，口型同步误差<40ms
360°环绕视角生成，发丝飘动、颈部褶皱等细节真实
性能对比优势
在OmniHuman-1基准测试中，运动连贯性（CIDEr↑18%）、身份保持（SSIM↑23%）指标领先

模型网盘：https://pan.quark.cn/s/184684a6d030

FantasyTalking wan数字人工作流（静态肖像→超拟真说话视频）
376
3
32

数字人

图生视频

FantasyTalking wan数字人工作流（静态肖像→超拟真说话视频） 376332

数字人

图生视频

FantasyTalking wan数字人工作流（静态肖像→超拟真说话视频）
376
3
32