刚刚开源的ACE-Step音乐生成和Float数字人

做了音轨分离,让数字人更好的识别人声

从而精准对上口型。

本地8G显存可跑

注释里有详细讲解使用