有个项目叫Lip2Wav ,它可以根据无声视频画面嘴唇的动作,进行“读唇”,给你音频配音结果。

算法原理就是根据面部特征,对唇部进行编码,再使用 LSTM 进行音频合成。

Lip2Wav 项目地址:
https://github.com/Rudrabha/Lip2Wav
还有一个项目是相反的,就是根据音频声音来让图像或视频中的人物按照你的声音来说话。

你还可以在线体验,只要上传一段视频和一段声音,谈就会自动同步视频与声音。
在线体验地址:https://bhaasha.iiit.ac.in/lipsync/example_upload1
Wav2Lip 项目地址:
https://github.com/Rudrabha/Wav2Lip
网友回复
如何破解绕开seedance2.0真人照片生成视频 限制?
python有哪些算法可以将视频中的每个帧图片去除指定区域水印合成新的视频?
iphone的激光雷达数据能否实时传输到three三维空间中?
豆包sora等ai视频生成大模型生成的视频水印如何去除?
python如何实现在电脑上拨号打电话给手机?
具身机器人与人形机器人区别?
nodejs如何将一个完整的js代码文件切割成不同的部分混淆后动态加载进入html运行?
为啥windows.onerror捕获js错误是这样的{"message":"Script error.","source":"","lineno":0,"colno":0,"stack":null,
2026年ai将全面接管编程?
WebMCP是干啥的?


