本文首要介绍下“视频翻译配音软件”有哪些功用,以及界面中各个选项和按钮的寓意及设置。
该软件能完成将一种言语的视频,翻译为另一种言语的视频,处理后的新视频中的字幕和人类说话声都将是目标言语。
比方英文说话的视频,不管里边有没有字幕,处理后都将生成中文字幕,并运用中文说话。
首要功用模块有:
1.标准功用方法:
即挑选一个或多个想翻译的视频,然后软件界面中设置该视频的发音言语和想要翻译到的言语,并挑选配音人物,将一键转化为目标言语字幕和配音的视频。
2.视频辨认字幕:
假如你只想为一个视频生成字幕文件,比方有一个英语视频,里边没字幕,或许虽然有字幕,但你还想要一个单独的英语字幕srt文件,那么可运用该功用,将依据视频里的说话声辨认出文字并输出srt字幕文件。
3.辨认字幕翻译:
和上个功用相似,所不同的是,你能够挑选将辨认出的字幕翻译为其他言语,比方从英语视频中辨认字幕,挑选目标言语中文,处理后将输出英语字幕和中文字幕两个srt文件。
4.视频字幕兼并
比方已有处理好的srt格局字幕文件,想嵌入本地已有的视频中作为硬字幕或许软字幕显现,那么能够挑选该功用,右侧底部导入字幕文件,然后挑选嵌入方法是硬字幕还是软字幕即可。
5.字幕创立配音
已经有了srt格局字幕文件,只想依据该文件生成配音,那么可选该功用,右侧底部导入字幕,挑选tts类型和配音人物就能够了。
6.音视频转文字
该功用和第二个按钮“视频辨认字幕”功用相似,所不同的是,该功用不只能够从视频辨认,还能够从音频中辨认,并且一次能够挑选多个音视频文件批量辨认。
7.文字合成语音
该功用和“字幕创立配音”功用相似,不过该功用除了依据srt格局字幕创立配音外,还支撑任意格局的文字,比方随意输入一行文字,就能够合成声响。
8.视频音频别离
一般视频都是由声响和图像组成,假如你只想要一个视频里的声响,那么能够运用该功用,将抽离视频中的声响为音频文件。
一起还会创立一个无声视频,即删掉了里边任何声响的无声mp4。
9.视频、音频、字幕三者兼并
比方你已有处理好的字幕文件、配音文件和mp4文件,期望合成他们为一个具有声响 字幕的视频,那么能够挑选该功用,并且能够挑选是否保存视频中原有的视频。
10.两个音频文件混合为一个
此功用适合于想创立有布景声响的音频,比方你有一段主播语音,想增加一个布景音乐,就能够运用该功用将主播语音文件和布景音乐文件混合,最终生成一个音频文件,一起有主播语音和布景音乐声。
11.文本字幕翻译
该功用是通用文字翻译,相似百度翻译,但一起支撑srt格局字幕的翻译,翻译成果将保存原字幕格局。
12. 文件格局转化
各种音频视频格局之间的转化
13.布景人声别离
将音频或视频中的声响别离为2个音频文件,分别是人声响频文件、其他声响文件,根据uvr5完成
14.下载油管视频
输入油管视频的播映页面,即可在此下载视频到计算机。
以上便是该软件的首要功用。
再介绍下软件界面中各个设置选项的寓意:
-
挑选视频按钮:这个是用来从电脑里挑选要处理的视频,一次能够挑选多个视频。
-
保存到.. 按钮:用来挑选将处理后的文件保存到哪里去,假如不挑选,默认就和原始视频保存在一个文件夹内的_video_out内。
-
右上角翻开按钮:用来翻开目标文件夹。
-
翻译途径按钮:用来挑选翻译文字和字幕时运用哪个翻译,支撑百度翻译 google翻译 微软翻译 腾讯翻译 chatgpt翻译等。
-
署理地址文本框:假如你运用google翻译或许chatGPT,需求在此填写署理地址才干够拜访,署理格局为 http://127.0.0.1:数字端口号。
-
原始言语:便是视频里的人类说话言语。
-
目标言语:你想翻译为哪种言语。
-
TTS类型:运用什么配音途径,目前支撑免费的edgeTTS、openaiTTS-1、elevenlabsTTS和原声响色配音项目clone-voice。
-
配音人物:即发音人物,不同人物音色不同,有女声男声等。
-
试听按钮:在选好配音人物之后,能够点击试听按钮,感受当时人物的声响,注意或许需求几秒钟来生成和输出声响。
-
faster模型和openai模型:这两个模型是用来将视频里的人类说话声转为文字的,都能够挑选base small medium large-v2 large-v3,从base到large-v3,作用越来越好,但所需计算机硬件条件也越来越高。详细可阅读上一篇文章。
语音辨认模型哪家强,faster-whisper还是openai-whisper?语音辨认挑选哪个模型
- 全体方法和预先切开:
全体方法是将整个说话声都交给模型处理,每个字幕时长也有模型控制,作用更好,但也或许呈现超长字幕遮住整个视频的状况。全体方法适合有明显停顿并且没布景声响的视频。
预先切开是指提前将说话声切开为10秒左右的片段,依次交由模型处理,字幕时间比较均匀,但或许呈现断句问题,即一句话没说完就强制断开了。
详细怎么挑选,能够依据视频状况而定。
- 嵌入字幕:行将字幕以什么方法嵌入视频中,可选不嵌入,硬字幕嵌入,软字幕嵌入。
硬字幕嵌入是指无论在哪里播映,始终会在播映界面显现,无法躲藏,假如你期望在网页播映时也能显现字幕,难么应该选该项。
软字幕是指以链接方法嵌入:假如播映器支撑,能够挑选显现或躲藏字幕,但要注意,网页中播映是不支撑软字幕的,并且很多播映器需求将字幕文件命名为和视频相同的名称,并放在同一位置才干显现。某些国产播映器还需求手动将srt文件转为gbk编码,否则显现会乱码。
-
静音片段:填写整数数字,代表以多少的静音距离切分说话声,默认500,即在检测到两段说话声之间的停顿大于等于500ms时,将在此切开为两部分。假如设置太小,或许导致很多的1s 2s等过短片段,过大或许导致30s 60s等过长片段,造成字幕占满屏幕。
-
配音语速: 是否对配音进行加减速。
假如加速,填写+最初后跟数字和%号,比方+50%,代表将在正常速度基础上速度加速50%,即1.5倍速。
假如减速,运用负号-最初,比方-50%,代表在正常基础上下降50%的速度,即0.5倍速。
- 配音主动加速和视频主动慢速:同一句话,在不同言语下发音时长是不同的,因此翻译配音后,时长必然发生变化,带来的影响便是字幕 声响 画面不同步,可通过两种方法来调理。
配音主动加速,是指当配音后的时长大于原发音时长时,通过加速配音语速来缩短配音时长,以到达和原时长共同。
视频主动慢速是指,假如配音后时长比原时长更长,配音时长不变,将原视频里对应时长的视频慢速播映,延长视频播映时长和配音时长共同。
存在的问题是:配音主动加速或许会太快,导致听不清在说什么,而视频慢速播映又或许太慢,几乎成了慢动作回放。
能够通过一起选中该两项,稍稍进行缓解。当然最好方法还是在辨认后和翻译后手动精简字幕防止字幕太长。
- CUDA加速:假如你有英伟达显卡并且装备好了cuda环境,可选中该项,将明显提高速度。详细装置装备cuda环境查看之前一篇文章。
- 保存布景音:假如不挑选该项,那么配音后,视频中将不存在原视频里的布景声响,假如你想保存,能够挑选该项。另外假如布景音太大或辨认作用欠好时,除了运用large大模型外,也能够挑选启用该项,将会先别离布景声响后再做辨认,作用或许更好。
- 增加布景音乐按钮:假如你想对成果视频额外加一个布景音,比方一段轻音乐,那么你能够点击该按钮,挑选一个音频文件,将在视频生成前,将该音频文件嵌入作为布景声响播映。
假如增加后在执行前又不想要它了,直接在右侧文本框内删除显现的内容即可。
- 右侧字幕区大文本框:辨认后和翻译后均会在此显现字幕内容,你能够点击其时左侧呈现的“暂停按钮”在暂停后修改字幕。
-
字幕区下方的导入字幕按钮:能够导入你本地已有的字幕,当导入后,就不再从视频中辨认了,而是直接运用你导入的。
-
导出字幕按钮:可将字幕区当时显现的内容导出到计算机。
-
字幕区下方试听按钮:试听当时字幕区内容
-
设置多人物:为每一行字幕指定一个配音人物,完成多人物配音。
-
菜单设置:能够在这里分别设置各个翻译途径用到的key和密钥等信息,比方百度翻译、腾讯翻译、chatGPT、DeepL等信息均在此点开查看。
- 菜单支撑与帮助:该菜单下是各个有用东西、开源地址、文档站点、常见问题页面等链接,比较有用。
视频翻译与配音开源地址: