阿里巴巴和北京邮电大学联合推出的 FantasyTalking 项目,这是数字人项目的又一重大突破,仅需一张证件照,就能生成表情灵动、动作自然的数字人视频。



三大创新模块
视听对齐策略:捕捉音频与面部表情、身体动作、背景动态的全域关联性
面部交叉注意力:仅3%参数量锁定五官特征,10分钟视频身份偏移率<0.3%
运动强度调制网络:22组参数独立控制表情/肢体幅度(如眉毛高度、肩部摆动频率)
生成效果突破
支持9种生成模式:特写/半身/全身 + 正脸/侧脸/动态背景
覆盖真人/卡通/动物多风格,口型同步误差<40ms
360°环绕视角生成,发丝飘动、颈部褶皱等细节真实
性能对比优势
在OmniHuman-1基准测试中,运动连贯性(CIDEr↑18%)、身份保持(SSIM↑23%)指标领先



模型网盘:https://pan.quark.cn/s/184684a6d030