本文首要介绍下“视频翻译配音软件”有哪些功用,以及界面中各个选项和按钮的寓意及设置。

软件介绍见:视频翻译与配音

该软件能完成将一种言语的视频,翻译为另一种言语的视频,处理后的新视频中的字幕和人类说话声都将是目标言语。

比方英文说话的视频,不管里边有没有字幕,处理后都将生成中文字幕,并运用中文说话。

首要功用模块有:

详解各个功用及界面设置-一个开源视频翻译配音东西

1.标准功用方法:

详解各个功用及界面设置-一个开源视频翻译配音东西

即挑选一个或多个想翻译的视频,然后软件界面中设置该视频的发音言语和想要翻译到的言语,并挑选配音人物,将一键转化为目标言语字幕和配音的视频。

2.视频辨认字幕:

详解各个功用及界面设置-一个开源视频翻译配音东西

假如你只想为一个视频生成字幕文件,比方有一个英语视频,里边没字幕,或许虽然有字幕,但你还想要一个单独的英语字幕srt文件,那么可运用该功用,将依据视频里的说话声辨认出文字并输出srt字幕文件。

3.辨认字幕翻译:

详解各个功用及界面设置-一个开源视频翻译配音东西

和上个功用相似,所不同的是,你能够挑选将辨认出的字幕翻译为其他言语,比方从英语视频中辨认字幕,挑选目标言语中文,处理后将输出英语字幕和中文字幕两个srt文件。

4.视频字幕兼并

详解各个功用及界面设置-一个开源视频翻译配音东西

比方已有处理好的srt格局字幕文件,想嵌入本地已有的视频中作为硬字幕或许软字幕显现,那么能够挑选该功用,右侧底部导入字幕文件,然后挑选嵌入方法是硬字幕还是软字幕即可。

5.字幕创立配音

详解各个功用及界面设置-一个开源视频翻译配音东西

已经有了srt格局字幕文件,只想依据该文件生成配音,那么可选该功用,右侧底部导入字幕,挑选tts类型和配音人物就能够了。

6.音视频转文字

详解各个功用及界面设置-一个开源视频翻译配音东西

该功用和第二个按钮“视频辨认字幕”功用相似,所不同的是,该功用不只能够从视频辨认,还能够从音频中辨认,并且一次能够挑选多个音视频文件批量辨认。

7.文字合成语音

详解各个功用及界面设置-一个开源视频翻译配音东西

该功用和“字幕创立配音”功用相似,不过该功用除了依据srt格局字幕创立配音外,还支撑任意格局的文字,比方随意输入一行文字,就能够合成声响。

8.视频音频别离

详解各个功用及界面设置-一个开源视频翻译配音东西

一般视频都是由声响和图像组成,假如你只想要一个视频里的声响,那么能够运用该功用,将抽离视频中的声响为音频文件。

一起还会创立一个无声视频,即删掉了里边任何声响的无声mp4。

9.视频、音频、字幕三者兼并

详解各个功用及界面设置-一个开源视频翻译配音东西

比方你已有处理好的字幕文件、配音文件和mp4文件,期望合成他们为一个具有声响 字幕的视频,那么能够挑选该功用,并且能够挑选是否保存视频中原有的视频。

10.两个音频文件混合为一个

详解各个功用及界面设置-一个开源视频翻译配音东西

此功用适合于想创立有布景声响的音频,比方你有一段主播语音,想增加一个布景音乐,就能够运用该功用将主播语音文件和布景音乐文件混合,最终生成一个音频文件,一起有主播语音和布景音乐声。

11.文本字幕翻译

详解各个功用及界面设置-一个开源视频翻译配音东西

该功用是通用文字翻译,相似百度翻译,但一起支撑srt格局字幕的翻译,翻译成果将保存原字幕格局。

12. 文件格局转化

各种音频视频格局之间的转化

详解各个功用及界面设置-一个开源视频翻译配音东西

13.布景人声别离

将音频或视频中的声响别离为2个音频文件,分别是人声响频文件、其他声响文件,根据uvr5完成

详解各个功用及界面设置-一个开源视频翻译配音东西

14.下载油管视频

输入油管视频的播映页面,即可在此下载视频到计算机。

详解各个功用及界面设置-一个开源视频翻译配音东西

以上便是该软件的首要功用。

再介绍下软件界面中各个设置选项的寓意:

详解各个功用及界面设置-一个开源视频翻译配音东西

  1. 挑选视频按钮:这个是用来从电脑里挑选要处理的视频,一次能够挑选多个视频。

  2. 保存到.. 按钮:用来挑选将处理后的文件保存到哪里去,假如不挑选,默认就和原始视频保存在一个文件夹内的_video_out内。

  3. 右上角翻开按钮:用来翻开目标文件夹。

  4. 翻译途径按钮:用来挑选翻译文字和字幕时运用哪个翻译,支撑百度翻译 google翻译 微软翻译 腾讯翻译 chatgpt翻译等。

  5. 署理地址文本框:假如你运用google翻译或许chatGPT,需求在此填写署理地址才干够拜访,署理格局为 http://127.0.0.1:数字端口号。

  6. 原始言语:便是视频里的人类说话言语。

  7. 目标言语:你想翻译为哪种言语。

  8. TTS类型:运用什么配音途径,目前支撑免费的edgeTTS、openaiTTS-1、elevenlabsTTS和原声响色配音项目clone-voice。

  9. 配音人物:即发音人物,不同人物音色不同,有女声男声等。

  10. 试听按钮:在选好配音人物之后,能够点击试听按钮,感受当时人物的声响,注意或许需求几秒钟来生成和输出声响。

  11. faster模型openai模型:这两个模型是用来将视频里的人类说话声转为文字的,都能够挑选base small medium large-v2 large-v3,从base到large-v3,作用越来越好,但所需计算机硬件条件也越来越高。详细可阅读上一篇文章。

语音辨认模型哪家强,faster-whisper还是openai-whisper?语音辨认挑选哪个模型

  1. 全体方法和预先切开:

全体方法是将整个说话声都交给模型处理,每个字幕时长也有模型控制,作用更好,但也或许呈现超长字幕遮住整个视频的状况。全体方法适合有明显停顿并且没布景声响的视频。

详解各个功用及界面设置-一个开源视频翻译配音东西

预先切开是指提前将说话声切开为10秒左右的片段,依次交由模型处理,字幕时间比较均匀,但或许呈现断句问题,即一句话没说完就强制断开了。

详细怎么挑选,能够依据视频状况而定。

  1. 嵌入字幕:行将字幕以什么方法嵌入视频中,可选不嵌入,硬字幕嵌入,软字幕嵌入。

详解各个功用及界面设置-一个开源视频翻译配音东西

硬字幕嵌入是指无论在哪里播映,始终会在播映界面显现,无法躲藏,假如你期望在网页播映时也能显现字幕,难么应该选该项。

软字幕是指以链接方法嵌入:假如播映器支撑,能够挑选显现或躲藏字幕,但要注意,网页中播映是不支撑软字幕的,并且很多播映器需求将字幕文件命名为和视频相同的名称,并放在同一位置才干显现。某些国产播映器还需求手动将srt文件转为gbk编码,否则显现会乱码。

  1. 静音片段:填写整数数字,代表以多少的静音距离切分说话声,默认500,即在检测到两段说话声之间的停顿大于等于500ms时,将在此切开为两部分。假如设置太小,或许导致很多的1s 2s等过短片段,过大或许导致30s 60s等过长片段,造成字幕占满屏幕。

  2. 配音语速: 是否对配音进行加减速。

假如加速,填写+最初后跟数字和%号,比方+50%,代表将在正常速度基础上速度加速50%,即1.5倍速。

假如减速,运用负号-最初,比方-50%,代表在正常基础上下降50%的速度,即0.5倍速。

  1. 配音主动加速视频主动慢速:同一句话,在不同言语下发音时长是不同的,因此翻译配音后,时长必然发生变化,带来的影响便是字幕 声响 画面不同步,可通过两种方法来调理。

详解各个功用及界面设置-一个开源视频翻译配音东西

配音主动加速,是指当配音后的时长大于原发音时长时,通过加速配音语速来缩短配音时长,以到达和原时长共同。

视频主动慢速是指,假如配音后时长比原时长更长,配音时长不变,将原视频里对应时长的视频慢速播映,延长视频播映时长和配音时长共同。

存在的问题是:配音主动加速或许会太快,导致听不清在说什么,而视频慢速播映又或许太慢,几乎成了慢动作回放。

能够通过一起选中该两项,稍稍进行缓解。当然最好方法还是在辨认后和翻译后手动精简字幕防止字幕太长。

  1. CUDA加速:假如你有英伟达显卡并且装备好了cuda环境,可选中该项,将明显提高速度。详细装置装备cuda环境查看之前一篇文章。

Windows操作系统装置装备CUDA12.3和cuDNN

  1. 保存布景音:假如不挑选该项,那么配音后,视频中将不存在原视频里的布景声响,假如你想保存,能够挑选该项。另外假如布景音太大或辨认作用欠好时,除了运用large大模型外,也能够挑选启用该项,将会先别离布景声响后再做辨认,作用或许更好。

详解各个功用及界面设置-一个开源视频翻译配音东西

  1. 增加布景音乐按钮:假如你想对成果视频额外加一个布景音,比方一段轻音乐,那么你能够点击该按钮,挑选一个音频文件,将在视频生成前,将该音频文件嵌入作为布景声响播映。

详解各个功用及界面设置-一个开源视频翻译配音东西

假如增加后在执行前又不想要它了,直接在右侧文本框内删除显现的内容即可。

  1. 右侧字幕区大文本框:辨认后和翻译后均会在此显现字幕内容,你能够点击其时左侧呈现的“暂停按钮”在暂停后修改字幕。

详解各个功用及界面设置-一个开源视频翻译配音东西

  1. 字幕区下方的导入字幕按钮:能够导入你本地已有的字幕,当导入后,就不再从视频中辨认了,而是直接运用你导入的。

  2. 导出字幕按钮:可将字幕区当时显现的内容导出到计算机。

  3. 字幕区下方试听按钮:试听当时字幕区内容

  4. 设置多人物:为每一行字幕指定一个配音人物,完成多人物配音。

  5. 菜单设置:能够在这里分别设置各个翻译途径用到的key和密钥等信息,比方百度翻译、腾讯翻译、chatGPT、DeepL等信息均在此点开查看。

详解各个功用及界面设置-一个开源视频翻译配音东西

  1. 菜单支撑与帮助:该菜单下是各个有用东西、开源地址、文档站点、常见问题页面等链接,比较有用。

详解各个功用及界面设置-一个开源视频翻译配音东西


视频翻译与配音开源地址:

github.com/jianchang51…