掌握镜像声响克隆魔法:用MockingBird让你的声响无限延伸

以前陪孩子睡觉时,我讲故事嗓子都快说沙哑了!现在有了MockingBird,我能够用自己的声响无限仿制,像个不知疲倦的讲故事专家。比如,能够有个“原版”妈妈、爸爸的声响,给孩子讲自己幼年的故事。或许有个“原版”爷爷声响,似乎他亲自在讲。MockingBird是个灵活的东西,让陪伴更风趣!

除了讲故事,MockingBird还能够用于以下场景:

  • 外语学习:假如你正在学习外语,能够运用MockingBird录制自己朗诵的课文或许常用单词,然后反复听取,加深记忆和练习白话。

  • 语音帮手:有了MockingBird,你能够创立自己的语音帮手,让它答复你的问题、提醒你日程、播放音乐等等。简单克隆个声响当你伴侣的闹钟或日常语音帮手,想想都风趣。

  • 商业用途:假如你是一个企业主或许销售人员,能够运用MockingBird录制销售话术或许电话营销脚本,让你的销售团队运用,进步功率和销售额。

  • 音频编排:假如你是一个制造人或许视频博主,能够运用MockingBird录制音频片段,然后进行编排和混音,制造成绝无仅有的音乐或许伴奏。

总归,MockingBird能够帮助你在许多方面进步功率和创造力,让你更好地利用自己的声响和语音。

装置

方法1: conda/mamba 隔离环境一步装置

conda env create -n env_name -f env.yml
mamba env create -n env_name -f env.yml

会创立新环境装置必须的依靠. 之后用 conda activate env_name 切换环境就完成了.

env.yml只包含了运转时必要的依靠,暂时不包括monotonic-align,假如想要装GPU版别的pytorch能够查看官网教程。

方法2: 通用装置

按照原始存储库测验您是否已准备好所有环境。 运转东西箱(demo_toolbox.py)需求 Python 3.7 或更高版别 。

  • 装置 PyTorch。 翻开pytorch官网链接:pytorch.org/get-started…

掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸

假如在用 pip 方法装置的时候呈现 ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2) 这个过错或许是 python 版别过低,3.9 能够装置成功

  • 装置 ffmpeg。 翻开ffmpeg官网:ffmpeg.org/download.ht…

掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸

  • 拉取MockingBird
git clone https://github.com/babysor/MockingBird.git
  • ps: 实测进程中发现有个包版别指定有问题,按照以下进程进行操作:
    1. 找到requirements.txt文件并翻开。
    2. 在文件中查找并定位到包含”monotonic-align==0.0.3″的行。
    3. 删除”==0.0.3″部分,仅保存文本”monotonic-align”。
    4. 保存当前文档并封闭。
  • 运转pip install -r requirements.txt 来装置剩下的必要包。
  • 装置 webrtcvad pip install webrtcvad-wheels。

运用解说

发动webui

python web.py 运转成功后在浏览器翻开地址, 默认为 http://localhost:8080

仅支撑手动新录音(16khz), 不支撑超过4MB的录音,最佳长度在5~15秒; 实测5-8s为佳, 超出会导致电流噪声;

掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸
在左侧切换模式,右侧的工作区能够上传音频/运用示例音频进行组成

发动东西箱:

python demo_toolbox.py -d <datasets_root>

这儿的 <datasets_root> 是指您的数据集根目录。 请指定一个可用的数据集文件途径,假如有支撑的数据集则会主动加载供调试,也同时会作为手动录制音频的存储目录。

掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸

首先,点击“Browse”按钮,挑选一个时长较短的音频文件。接下来,挑选组成器模型为75k,并输入待组成语音的文本内容。最终,点击“组成”按钮即可导出已组成的音频文件。

发动东西箱VC模式

python demo_toolbox.py -vc -d <datasets_root>

请指定一个可用的数据集文件途径,假如有支撑的数据集则会主动加载供调试,也同时会作为手动录制音频的存储目录。

掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸

掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸

高级优化手段

关于组成

组成音频分为两进程。第一步是声学模型组成梅尔图,你能够点击“Synthesize only”按钮进行组成。假如组成的梅尔图作用比较明晰,就能够继续进行下一步。假如不明晰,能够测验屡次组成。第二步是组成音频,你能够点击“Vocode only”按钮进行组成。当你更换声码器后,能够在更换后点击“Vocode only”按钮,防止重复组成梅尔图。同时进行这两进程的按钮是“Synthesize and Vocode”。

组成完成后,你能够在左下角的“Toolbox Output”方位找到新的音频文件。所有组成过的音频都会放在这儿,你能够挑选“Replay”重新播放,或许点击“Export”导出音频文件。

作用不够好

某些状况下, 在长文本组成中呈现坏音, 能够经过以下方法调整优化:

  1. 换更高等级的模型 200k; 现在社区练习好的模型中, 挑选出更适合自己场景的

    掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸

  2. 精简输入, 同时换GPU方法来跑

  3. 改善CPU、GPU占用率,视状况调整batch_size参数来改善

练习优化

硬件环境准备

  • 显卡:主张8G显存以上, 支撑CUDA的NVIDIA显卡,小显存或CPU按需运用。
  • 硬盘:主张500GB可用空间以上的硬盘,语音数据集适当巨大,而且理论上数据集越大最终模型作用更好。

软件环境准备

保证练习用的机器现已成功装好以下程序:

  • Python 3.9.6 (或其他高于3.7的版别)
  • CUDA Toolkit,版别 10.2 或 11.1 (或许需求显卡驱动升级后支撑)
  • 【强烈引荐】Anaconda 用清华Tuna源
  • PyTorch 挑选对应的渠道和版别后仿制指令运转装置
  • ffmpeg 并设置环境变量
  • 在项目源代码根目录下运转pip install -r requirements.txt 来装置剩下的必要包。
  • 装置 webrtcvad pip install webrtcvad-wheels。

开端练习
Encoder
Synthesizer & Vocoder
进行音频和梅尔频谱图预处理: python pre.py <datasets_root> 能够传入参数 –dataset {dataset} 支撑 aidatatang_200zh, magicdata, aishell3
练习组成器: python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer

练习完毕
哪有那么容易完毕,炼丹姿态千千万,大功告成别希望。每天换换数据集和参数组合,跑着跑着就发现作用更好了。
练习工作能够观察到 \saved_models<id> 多了以下几个文件夹:

  • Mel-spectrograms, wavs 练习进程主动保存的测验记载
  • Metas 根本模型参数
  • Plots 练习进程主动保存的阶段结果截图 (音频和梅尔频谱图预处理)

在练的进程中,至少要等到Plots 里边的attention图呈现收敛(Convergence),才能正常发出人声,如下图呈现一条明显斜线,否则就是一团奇怪噪音,对于loss数字就多寡随意,丰俭由人了。

掌握镜像声音克隆魔法:用MockingBird让你的声音无限延伸

附录-AI小创针对本文(原创)引荐的相关标题

  • “掌握镜像声响克隆魔法:用MockingBird让你的声响无限延伸”

  • “科技惊奇:用MockingBird完成自我声响复刻”

  • “打造自己的语音帮手:MockingBird教你怎么克隆声响”

  • “用MockingBird制造个性化音频:开释你的创造力”

  • “革新性的声响克隆技能:应战MockingBird,打造无限或许”

  • “MockingBird:用AI技能让你的声响无处不在”

  • “声响复刻的黑科技:探秘MockingBird的奇特之处”

  • “打造自己的语音品牌:MockingBird让你的声响更具个性”

  • “AI带来的声响革新:MockingBird让你的声响不再受限”

  • “用MockingBird玩转音频制造:让你的声响成为艺术品”

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。