掌握镜像声响克隆魔法:用MockingBird让你的声响无限延伸
以前陪孩子睡觉时,我讲故事嗓子都快说沙哑了!现在有了MockingBird,我能够用自己的声响无限仿制,像个不知疲倦的讲故事专家。比如,能够有个“原版”妈妈、爸爸的声响,给孩子讲自己幼年的故事。或许有个“原版”爷爷声响,似乎他亲自在讲。MockingBird是个灵活的东西,让陪伴更风趣!
除了讲故事,MockingBird还能够用于以下场景:
-
外语学习:假如你正在学习外语,能够运用MockingBird录制自己朗诵的课文或许常用单词,然后反复听取,加深记忆和练习白话。
-
语音帮手:有了MockingBird,你能够创立自己的语音帮手,让它答复你的问题、提醒你日程、播放音乐等等。简单克隆个声响当你伴侣的闹钟或日常语音帮手,想想都风趣。
-
商业用途:假如你是一个企业主或许销售人员,能够运用MockingBird录制销售话术或许电话营销脚本,让你的销售团队运用,进步功率和销售额。
-
音频编排:假如你是一个制造人或许视频博主,能够运用MockingBird录制音频片段,然后进行编排和混音,制造成绝无仅有的音乐或许伴奏。
总归,MockingBird能够帮助你在许多方面进步功率和创造力,让你更好地利用自己的声响和语音。
装置
方法1: conda/mamba 隔离环境一步装置
conda env create -n env_name -f env.yml
mamba env create -n env_name -f env.yml
会创立新环境装置必须的依靠. 之后用 conda activate env_name 切换环境就完成了.
env.yml只包含了运转时必要的依靠,暂时不包括monotonic-align,假如想要装GPU版别的pytorch能够查看官网教程。
方法2: 通用装置
按照原始存储库测验您是否已准备好所有环境。 运转东西箱(demo_toolbox.py)需求 Python 3.7 或更高版别 。
- 装置 PyTorch。 翻开pytorch官网链接:pytorch.org/get-started…

假如在用 pip 方法装置的时候呈现 ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2) 这个过错或许是 python 版别过低,3.9 能够装置成功
- 装置 ffmpeg。 翻开ffmpeg官网:ffmpeg.org/download.ht…

- 拉取MockingBird
git clone https://github.com/babysor/MockingBird.git
- ps: 实测进程中发现有个包版别指定有问题,按照以下进程进行操作:
- 找到requirements.txt文件并翻开。
- 在文件中查找并定位到包含”monotonic-align==0.0.3″的行。
- 删除”==0.0.3″部分,仅保存文本”monotonic-align”。
- 保存当前文档并封闭。
- 运转pip install -r requirements.txt 来装置剩下的必要包。
- 装置 webrtcvad pip install webrtcvad-wheels。
运用解说
发动webui
python web.py 运转成功后在浏览器翻开地址, 默认为 http://localhost:8080
仅支撑手动新录音(16khz), 不支撑超过4MB的录音,最佳长度在5~15秒; 实测5-8s为佳, 超出会导致电流噪声;

发动东西箱:
python demo_toolbox.py -d <datasets_root>
这儿的 <datasets_root> 是指您的数据集根目录。 请指定一个可用的数据集文件途径,假如有支撑的数据集则会主动加载供调试,也同时会作为手动录制音频的存储目录。

首先,点击“Browse”按钮,挑选一个时长较短的音频文件。接下来,挑选组成器模型为75k,并输入待组成语音的文本内容。最终,点击“组成”按钮即可导出已组成的音频文件。
发动东西箱VC模式
python demo_toolbox.py -vc -d <datasets_root>
请指定一个可用的数据集文件途径,假如有支撑的数据集则会主动加载供调试,也同时会作为手动录制音频的存储目录。


高级优化手段
关于组成
组成音频分为两进程。第一步是声学模型组成梅尔图,你能够点击“Synthesize only”按钮进行组成。假如组成的梅尔图作用比较明晰,就能够继续进行下一步。假如不明晰,能够测验屡次组成。第二步是组成音频,你能够点击“Vocode only”按钮进行组成。当你更换声码器后,能够在更换后点击“Vocode only”按钮,防止重复组成梅尔图。同时进行这两进程的按钮是“Synthesize and Vocode”。
组成完成后,你能够在左下角的“Toolbox Output”方位找到新的音频文件。所有组成过的音频都会放在这儿,你能够挑选“Replay”重新播放,或许点击“Export”导出音频文件。
作用不够好
某些状况下, 在长文本组成中呈现坏音, 能够经过以下方法调整优化:
练习优化
硬件环境准备
- 显卡:主张8G显存以上, 支撑CUDA的NVIDIA显卡,小显存或CPU按需运用。
- 硬盘:主张500GB可用空间以上的硬盘,语音数据集适当巨大,而且理论上数据集越大最终模型作用更好。
软件环境准备
保证练习用的机器现已成功装好以下程序:
- Python 3.9.6 (或其他高于3.7的版别)
- CUDA Toolkit,版别 10.2 或 11.1 (或许需求显卡驱动升级后支撑)
- 【强烈引荐】Anaconda 用清华Tuna源
- PyTorch 挑选对应的渠道和版别后仿制指令运转装置
- ffmpeg 并设置环境变量
- 在项目源代码根目录下运转pip install -r requirements.txt 来装置剩下的必要包。
- 装置 webrtcvad pip install webrtcvad-wheels。
开端练习
Encoder
Synthesizer & Vocoder
进行音频和梅尔频谱图预处理: python pre.py <datasets_root> 能够传入参数 –dataset {dataset} 支撑 aidatatang_200zh, magicdata, aishell3
练习组成器: python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
练习完毕
哪有那么容易完毕,炼丹姿态千千万,大功告成别希望。每天换换数据集和参数组合,跑着跑着就发现作用更好了。
练习工作能够观察到 \saved_models<id> 多了以下几个文件夹:
- Mel-spectrograms, wavs 练习进程主动保存的测验记载
- Metas 根本模型参数
- Plots 练习进程主动保存的阶段结果截图 (音频和梅尔频谱图预处理)
在练的进程中,至少要等到Plots 里边的attention图呈现收敛(Convergence),才能正常发出人声,如下图呈现一条明显斜线,否则就是一团奇怪噪音,对于loss数字就多寡随意,丰俭由人了。

附录-AI小创针对本文(原创)引荐的相关标题
-
“掌握镜像声响克隆魔法:用MockingBird让你的声响无限延伸”
-
“科技惊奇:用MockingBird完成自我声响复刻”
-
“打造自己的语音帮手:MockingBird教你怎么克隆声响”
-
“用MockingBird制造个性化音频:开释你的创造力”
-
“革新性的声响克隆技能:应战MockingBird,打造无限或许”
-
“MockingBird:用AI技能让你的声响无处不在”
-
“声响复刻的黑科技:探秘MockingBird的奇特之处”
-
“打造自己的语音品牌:MockingBird让你的声响更具个性”
-
“AI带来的声响革新:MockingBird让你的声响不再受限”
-
“用MockingBird玩转音频制造:让你的声响成为艺术品”