输入一个带头像的照片,可以是真人,也可以是卡通

再输入一段声音,可以是播报,也可以是唱歌

结合在一起,生成一个数字人,或卡通数字人

Sonic: Shifting Focus to Global Audio Perception in Portrait Animation