videotrans是一款视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音。比如有一个英文电影,发音是英文,没有英文字幕,也没有中文字幕,使用这个工具处理后,可以转成带中文字幕,并且带有中文配音的电影。
GitHub:https://github.com/jianchang512/pyvideotrans
此工具是将多款开源AI应用集成在一起:
- 语音识别基于
faster-whisper
离线模型. - 文字翻译支持
microsoft|google|baidu|tencent|chatGPT|Azure|Gemini|DeepL|DeepLX|离线翻译OTT
, - 文字合成语音支持
Microsoft Edge tts
Openai TTS-1
Elevenlabs TTS
,配合clone-voice 可实现原音色克隆配音 - 允许保留背景伴奏音乐等(基于uvr5)
除了这个核心功能,还附带其他一些工具:
- 语音识别文字:可将视频或者音频中的声音识别为文字,并可以导出为字幕文件。
- 音频视频分离:可将视频分离为一个无声视频文件和一个音频文件
- 文字字幕翻译:可将文字或srt字幕文件,翻译为其他语言
- 视频字幕合并:可将字幕文件嵌入到视频中
- 音频视频合并:可将视频文件、音频文件、字幕文件三者合成为一个文件
- 文字合成语音:可将任意文字或srt文件,合成为一个音频文件。
这个工具原理是什么呢?
输入视频后,先使用 ffmpeg 分离出音频文件和无声mp4,然后用 faster-whisper 将该音频中的人声识别为文字,接着将文字翻译为目标语言并保存为srt字幕文件,再把翻译结果文字合成为语音并保存为配音音频文件。最后将无声mp4、配音音频文件、字幕srt文件合并为一个视频文件,即完成。当然中间步骤更复杂些,比如抽离背景音乐和人声、字幕声音对齐、字幕画面对齐、原时长和配音时长对齐、ffmpeg使用GPU加速、不标准mp4视频处理等。
0条评论