MuseTalk 是由腾讯音乐娱乐的 Lyra 实验室开发的一款强大的开源项目,旨在为虚拟人物提供逼真的口型动画。
该项目不仅支持中文、英文和日文等多语言输入,还适用于多种应用场景,无论是短视频制作、长剧集还是教育与培训材料,都能确保高质量的唇形同步效果。
MuseTalk 的核心是其创新性的 latent space inpainting 方法,它基于 ft-mse-vae 空间进行训练。
该项目利用冻结的 VAE 对图像进行编码,同时使用冻结的 whisper-tiny 模型对音频进行编码,然后通过 UNet 架构中的 cross-attention 机制将音频嵌入与图像嵌入相融合。
与 Stable Diffusion 类似但又不同,MuseTalk 通过单步 latent space inpainting 实现快速且精确的唇部动作调整。
这一技术特别适用于创造自然且逼真的数字人表现,使得数字角色的唇形能够精准地与音频内容匹配,从而大幅提升观众的视听体验。
其中github项目地址:https://github.com/THU-MIG/yolov10
一、环境安装
1、python环境:
为了兼容库安装,建议安装python版本在3.10以上。
2、pip包安装:
pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install --no-cache-dir -U openmim
mim install mmengine
mim install "mmcv>=2.0.1"
mim insta