MuseTalk的最新唇形同步模型落地实践经验总结(不看后悔)

MuseTalk 是由腾讯音乐娱乐的 Lyra 实验室开发的一款强大的开源项目,旨在为虚拟人物提供逼真的口型动画。

该项目不仅支持中文、英文和日文等多语言输入,还适用于多种应用场景,无论是短视频制作、长剧集还是教育与培训材料,都能确保高质量的唇形同步效果。

MuseTalk 的核心是其创新性的 latent space inpainting 方法,它基于 ft-mse-vae 空间进行训练。

该项目利用冻结的 VAE 对图像进行编码,同时使用冻结的 whisper-tiny 模型对音频进行编码,然后通过 UNet 架构中的 cross-attention 机制将音频嵌入与图像嵌入相融合。

与 Stable Diffusion 类似但又不同,MuseTalk 通过单步 latent space inpainting 实现快速且精确的唇部动作调整。

这一技术特别适用于创造自然且逼真的数字人表现,使得数字角色的唇形能够精准地与音频内容匹配,从而大幅提升观众的视听体验。

其中github项目地址:https://github.com/THU-MIG/yolov10

一、环境安装

1、python环境:

为了兼容库安装,建议安装python版本在3.10以上。

2、pip包安装:

pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install --no-cache-dir -U openmim

mim install mmengine

mim install "mmcv>=2.0.1"

mim insta

2022再来一遍
一辆公交车要多少钱