详解各个功能及界面设置-一个开源视频翻译配音工具

本文首要介绍下“视频翻译配音软件”有哪些功用，以及界面中各个选项和按钮的寓意及设置。

该软件能完成将一种言语的视频，翻译为另一种言语的视频，处理后的新视频中的字幕和人类说话声都将是目标言语。

比方英文说话的视频，不管里边有没有字幕，处理后都将生成中文字幕，并运用中文说话。

首要功用模块有:

即挑选一个或多个想翻译的视频，然后软件界面中设置该视频的发音言语和想要翻译到的言语，并挑选配音人物，将一键转化为目标言语字幕和配音的视频。

假如你只想为一个视频生成字幕文件，比方有一个英语视频，里边没字幕，或许虽然有字幕，但你还想要一个单独的英语字幕srt文件，那么可运用该功用，将依据视频里的说话声辨认出文字并输出srt字幕文件。

和上个功用相似，所不同的是，你能够挑选将辨认出的字幕翻译为其他言语，比方从英语视频中辨认字幕，挑选目标言语中文，处理后将输出英语字幕和中文字幕两个srt文件。

比方已有处理好的srt格局字幕文件，想嵌入本地已有的视频中作为硬字幕或许软字幕显现，那么能够挑选该功用，右侧底部导入字幕文件，然后挑选嵌入方法是硬字幕还是软字幕即可。

已经有了srt格局字幕文件，只想依据该文件生成配音，那么可选该功用，右侧底部导入字幕，挑选tts类型和配音人物就能够了。

该功用和第二个按钮“视频辨认字幕”功用相似，所不同的是，该功用不只能够从视频辨认，还能够从音频中辨认，并且一次能够挑选多个音视频文件批量辨认。

该功用和“字幕创立配音”功用相似，不过该功用除了依据srt格局字幕创立配音外，还支撑任意格局的文字，比方随意输入一行文字，就能够合成声响。

一般视频都是由声响和图像组成，假如你只想要一个视频里的声响，那么能够运用该功用，将抽离视频中的声响为音频文件。

一起还会创立一个无声视频，即删掉了里边任何声响的无声mp4。

比方你已有处理好的字幕文件、配音文件和mp4文件，期望合成他们为一个具有声响字幕的视频，那么能够挑选该功用，并且能够挑选是否保存视频中原有的视频。

此功用适合于想创立有布景声响的音频，比方你有一段主播语音，想增加一个布景音乐，就能够运用该功用将主播语音文件和布景音乐文件混合，最终生成一个音频文件，一起有主播语音和布景音乐声。

该功用是通用文字翻译，相似百度翻译，但一起支撑srt格局字幕的翻译，翻译成果将保存原字幕格局。

各种音频视频格局之间的转化

将音频或视频中的声响别离为2个音频文件，分别是人声响频文件、其他声响文件，根据uvr5完成

输入油管视频的播映页面，即可在此下载视频到计算机。

以上便是该软件的首要功用。

挑选视频按钮:这个是用来从电脑里挑选要处理的视频，一次能够挑选多个视频。
保存到.. 按钮:用来挑选将处理后的文件保存到哪里去，假如不挑选，默认就和原始视频保存在一个文件夹内的_video_out内。
右上角翻开按钮:用来翻开目标文件夹。
翻译途径按钮:用来挑选翻译文字和字幕时运用哪个翻译，支撑百度翻译 google翻译微软翻译腾讯翻译 chatgpt翻译等。
署理地址文本框:假如你运用google翻译或许chatGPT，需求在此填写署理地址才干够拜访，署理格局为 http://127.0.0.1:数字端口号。
原始言语:便是视频里的人类说话言语。
目标言语:你想翻译为哪种言语。
TTS类型:运用什么配音途径，目前支撑免费的edgeTTS、openaiTTS-1、elevenlabsTTS和原声响色配音项目clone-voice。
配音人物:即发音人物，不同人物音色不同，有女声男声等。
试听按钮:在选好配音人物之后，能够点击试听按钮，感受当时人物的声响，注意或许需求几秒钟来生成和输出声响。
faster模型和openai模型:这两个模型是用来将视频里的人类说话声转为文字的，都能够挑选base small medium large-v2 large-v3，从base到large-v3，作用越来越好，但所需计算机硬件条件也越来越高。详细可阅读上一篇文章。