掌握镜像声响克隆魔法：用MockingBird让你的声响无限延伸

以前陪孩子睡觉时，我讲故事嗓子都快说沙哑了！现在有了MockingBird，我能够用自己的声响无限仿制，像个不知疲倦的讲故事专家。比如，能够有个“原版”妈妈、爸爸的声响，给孩子讲自己幼年的故事。或许有个“原版”爷爷声响，似乎他亲自在讲。MockingBird是个灵活的东西，让陪伴更风趣！

除了讲故事，MockingBird还能够用于以下场景：

外语学习：假如你正在学习外语，能够运用MockingBird录制自己朗诵的课文或许常用单词，然后反复听取，加深记忆和练习白话。
语音帮手：有了MockingBird，你能够创立自己的语音帮手，让它答复你的问题、提醒你日程、播放音乐等等。简单克隆个声响当你伴侣的闹钟或日常语音帮手,想想都风趣。
商业用途：假如你是一个企业主或许销售人员，能够运用MockingBird录制销售话术或许电话营销脚本，让你的销售团队运用，进步功率和销售额。
音频编排：假如你是一个制造人或许视频博主，能够运用MockingBird录制音频片段，然后进行编排和混音，制造成绝无仅有的音乐或许伴奏。

总归，MockingBird能够帮助你在许多方面进步功率和创造力，让你更好地利用自己的声响和语音。

装置

方法1: conda/mamba 隔离环境一步装置

conda env create -n env_name -f env.yml
mamba env create -n env_name -f env.yml

会创立新环境装置必须的依靠. 之后用 conda activate env_name 切换环境就完成了.

env.yml只包含了运转时必要的依靠，暂时不包括monotonic-align，假如想要装GPU版别的pytorch能够查看官网教程。

方法2: 通用装置

按照原始存储库测验您是否已准备好所有环境。运转东西箱(demo_toolbox.py)需求 Python 3.7 或更高版别。

装置 PyTorch。翻开pytorch官网链接：pytorch.org/get-started…

假如在用 pip 方法装置的时候呈现 ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2) 这个过错或许是 python 版别过低，3.9 能够装置成功

装置 ffmpeg。翻开ffmpeg官网：ffmpeg.org/download.ht…

拉取MockingBird

git clone https://github.com/babysor/MockingBird.git

ps: 实测进程中发现有个包版别指定有问题,按照以下进程进行操作：
1. 找到requirements.txt文件并翻开。
2. 在文件中查找并定位到包含”monotonic-align==0.0.3″的行。
3. 删除”==0.0.3″部分，仅保存文本”monotonic-align”。
4. 保存当前文档并封闭。
运转pip install -r requirements.txt 来装置剩下的必要包。
装置 webrtcvad pip install webrtcvad-wheels。

运用解说

发动webui

python web.py 运转成功后在浏览器翻开地址, 默认为 http://localhost:8080

仅支撑手动新录音（16khz）, 不支撑超过4MB的录音，最佳长度在5~15秒; 实测5-8s为佳, 超出会导致电流噪声;

在左侧切换模式，右侧的工作区能够上传音频/运用示例音频进行组成

发动东西箱：

python demo_toolbox.py -d <datasets_root>

这儿的 <datasets_root> 是指您的数据集根目录。请指定一个可用的数据集文件途径，假如有支撑的数据集则会主动加载供调试，也同时会作为手动录制音频的存储目录。

首先，点击“Browse”按钮，挑选一个时长较短的音频文件。接下来，挑选组成器模型为75k，并输入待组成语音的文本内容。最终，点击“组成”按钮即可导出已组成的音频文件。

发动东西箱VC模式

python demo_toolbox.py -vc -d <datasets_root>

请指定一个可用的数据集文件途径，假如有支撑的数据集则会主动加载供调试，也同时会作为手动录制音频的存储目录。

高级优化手段

关于组成

组成音频分为两进程。第一步是声学模型组成梅尔图，你能够点击“Synthesize only”按钮进行组成。假如组成的梅尔图作用比较明晰，就能够继续进行下一步。假如不明晰，能够测验屡次组成。第二步是组成音频，你能够点击“Vocode only”按钮进行组成。当你更换声码器后，能够在更换后点击“Vocode only”按钮，防止重复组成梅尔图。同时进行这两进程的按钮是“Synthesize and Vocode”。

组成完成后，你能够在左下角的“Toolbox Output”方位找到新的音频文件。所有组成过的音频都会放在这儿，你能够挑选“Replay”重新播放，或许点击“Export”导出音频文件。

作用不够好

某些状况下, 在长文本组成中呈现坏音, 能够经过以下方法调整优化:

换更高等级的模型 200k; 现在社区练习好的模型中, 挑选出更适合自己场景的
精简输入, 同时换GPU方法来跑
改善CPU、GPU占用率,视状况调整batch_size参数来改善

练习优化

硬件环境准备

显卡：主张8G显存以上，支撑CUDA的NVIDIA显卡，小显存或CPU按需运用。
硬盘：主张500GB可用空间以上的硬盘，语音数据集适当巨大，而且理论上数据集越大最终模型作用更好。

软件环境准备

保证练习用的机器现已成功装好以下程序：

Python 3.9.6 (或其他高于3.7的版别)
CUDA Toolkit，版别 10.2 或 11.1 （或许需求显卡驱动升级后支撑）
【强烈引荐】Anaconda 用清华Tuna源
PyTorch 挑选对应的渠道和版别后仿制指令运转装置
ffmpeg 并设置环境变量
在项目源代码根目录下运转pip install -r requirements.txt 来装置剩下的必要包。
装置 webrtcvad pip install webrtcvad-wheels。

开端练习
Encoder
Synthesizer & Vocoder
进行音频和梅尔频谱图预处理： python pre.py <datasets_root> 能够传入参数 –dataset {dataset} 支撑 aidatatang_200zh, magicdata, aishell3
练习组成器： python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer

练习完毕
哪有那么容易完毕，炼丹姿态千千万，大功告成别希望。每天换换数据集和参数组合，跑着跑着就发现作用更好了。
练习工作能够观察到 \saved_models<id> 多了以下几个文件夹：

Mel-spectrograms, wavs 练习进程主动保存的测验记载
Metas 根本模型参数
Plots 练习进程主动保存的阶段结果截图 (音频和梅尔频谱图预处理)

在练的进程中，至少要等到Plots 里边的attention图呈现收敛（Convergence），才能正常发出人声，如下图呈现一条明显斜线，否则就是一团奇怪噪音，对于loss数字就多寡随意，丰俭由人了。

附录-AI小创针对本文(原创)引荐的相关标题

“掌握镜像声响克隆魔法：用MockingBird让你的声响无限延伸”
“科技惊奇：用MockingBird完成自我声响复刻”
“打造自己的语音帮手：MockingBird教你怎么克隆声响”
“用MockingBird制造个性化音频：开释你的创造力”
“革新性的声响克隆技能：应战MockingBird，打造无限或许”
“MockingBird：用AI技能让你的声响无处不在”
“声响复刻的黑科技：探秘MockingBird的奇特之处”
“打造自己的语音品牌：MockingBird让你的声响更具个性”
“AI带来的声响革新：MockingBird让你的声响不再受限”
“用MockingBird玩转音频制造：让你的声响成为艺术品”

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

掌握镜像声音克隆魔法：用MockingBird让你的声音无限延伸