小红书多媒体智能算法团队和香港中文大学首次联合提出了根据多阶段多码本紧凑型语音表征的高功能语音组成计划 MSMC-TTS。根据矢量量化变分自编码器（VQ-VAE）的特征剖析器选用若干码本对声学特征进行阶段式编码，形成一组具有不一起间分辨率的隐序列集合。这些隐序列可以由多阶段猜测器从文本中猜测取得，并且通过神经声码器转换成方针音频。该计划，比照根据Mel-Spectrogram的Fastspeech 基线体系，音质和天然度有明显的改善。该作业现已总结成论文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”，并被语音范畴会议 INTERSPEECH 2022 接收。

1. 背景

语音组成（Text-to-Speech, 简称 TTS）是把文本转化为语音的一种技能，被广泛应用于视频配音、音视频内容创作、智能人机交互等产品中。干流语音组成体系后端的声学建模技能通常包含特征提取器，声学模型和声码器三部分。TTS 通常会对根据信号处理取得的声学特征（例如梅尔谱 Mel Spectrogram）进行声学建模，但受限于模型的拟合才能，猜测得到的声学特征和真实数据在散布上存在一定差异，这导致在真实数据上练习的声码器难以从猜测特征中生成高质量音频。

TTS 体系结构图

针对这一难题，学界运用了更为复杂的模型结构和更为新颖的生成式算法以减小猜测差错和缩小散布差异。而本作业另辟蹊径，以紧凑型语音表征为动身点来考虑问题。对语音组成来说，1）声学特征杰出的紧凑性可以保证更为精确的模型猜测成果和更鲁棒的波形生成； 2）声学特征杰出的齐备性可以保证更好地重构语音信号。根据这两点考虑，本文提出选用矢量量化变分自编码器（VQ-VAE）从方针数据中挖掘出一种更好的紧凑型表示。

2. 表征学习MSMC VQ-VAE

VQ-VAE 包含编码器与解码器。编码器将输入声学特征序列加工为隐序列并用相应码本进行量化。而解码器把通过量化的序列康复为原始声学特征序列。这种量化序列作为离散化表征具有较好的紧凑性（特征参数量较少）。其间量化程度越高，即码本容量越小，特征紧凑程度就越高。但这也形成了信息压缩，使特征齐备度变差。为了保证足够的齐备性，一般都会运用更多的码字。但随着码本容量的添加，码本更新所需的数据量以及练习次数将呈指数级递增，这使得 VQ-VAE 难以通过增大码本来有效增强表征齐备性。针对此问题，本文提出多头矢量量化（MHVQ）办法。

VQ-VAE 模型结构图

MHVQ 将单个码本按特征维度方向均分为若干个子码本。量化时还将每个输入向量相等地切割成若干个子向量，并分别用相应子码本量化，终究拼接成输出向量。这样咱们就能愈加有效地进步码本运用率及表征容量，而无需添加码本参数量。例如，要使压缩率削减1倍，码字本来要添加到原码本数的平方。选用 MHVQ 后，只要把码本切分红两部分就可以完成相同的压缩率。因此，本办法可以愈加有效地调节量化表征的齐备性。

MHVQ 示例图

另外在对语音序列进行量化时，语音特征中蕴含的各类信息都有不同程度地丢失。这些信息在时间粒度上是不一样的，如粗粒度的音色，发音风格等，以及细粒度的音调，发音细节等。在任何时间尺度上过度压缩信息都可能使语音质量遭到一定程度的损坏。为了缓解这一问题，本作业提出了一种多时间尺度的语音建模办法。如图所示，声学特征序列通过若干个编码器将声学特征序列阶段式编码至不一起间尺度，然后再通过解码器端逐层量化，解码得到若干个具有不一起间分辨率的量化序列。这类序列集合构成的表征，即为本作业提出的多阶段多码本表征。

多阶段建模示例图

3. 声学建模MSMC-TTS

针对多阶段多码本表征 MSMCR ，本论文提出了相应的 TTS 体系，即 MSMC-TTS 体系。体系包含剖析、组成和猜测3个部分。在体系练习中，该体系先对剖析模块进行练习。练习集中的音频通过信号处理后转化为高齐备性声学特征（如本次作业中用到的 Mel-Spectrogram 特征）。运用这些声学特征对根据 MSMC-VQ-VAE 的特征剖析器进行练习，练习结束时将其转化为相应的MSMCR，再对声学模型及神经声码器进行练习。解码过程中，该体系运用声学模型从文本中猜测 MSMCR，然后运用神经声码器产生方针音频。

MSMC-TTS 体系结构图

本作业还提出一种多阶段猜测器来适配 MSMCR 建模。该模型是以 FastSpeech 为根底完成的，但在解码器端有所不同。该模型首先对文本进行编码，并根据猜测时长信息对文本上采样。然后再将序列降采样至 MSMCR 对应的各个时间分辨率。这些序列将由不同解码器由低分辨率向高分辨率逐级解码量化。一起将低分辨率量化序列发送给下一阶段的解码器以帮忙猜测。最终将猜测所得 MSMCR 送入神经声码器中产生方针音频。

多阶段猜测器结构图

对多阶段猜测器进行练习与揣度时，本作业挑选直接在接连空间猜测方针表征。这种办法能较好地顾及向量间及码字间在线性接连空间上的间隔关系。练习原则除了选用常用于 TTS 建模的 MSE 损失函数外，还运用了 “triplet loss” 以迫使猜测向量远离非方针码字并靠近方针码字。通过将两种损失函数项组合，该模型可以更好地猜测方针码字。

4. 试验作用

本作业在揭露的英文单说话人数据集 Nancy (Blizzard Challenge 2011) 上进行试验。咱们组织了主观意见得分测试（MOS）对 MSMC-TTS 组成作用进行点评。试验成果显示：原始录音为 4.50 分的情况下, MSMC-TTS 的得分为 4.41分，基线体系 Mel-FS（Mel-Spectrogram based FastSpeech）为 3.62 分。咱们对基线体系的声码器进行调优，使之与Mel-FS输出特征相适配，成果为 3.69 分。该比照成果证明了文中所提办法对 TTS 体系的明显改进作用。

另外咱们还进一步讨论了建模复杂度关于 TTS 的功能影响。由 M1 至 M3 模型参数量呈倍数下降, Mel-FS 组成作用降至 1.86 分。反观 MSMC-TTS, 参数量削减并未对组成质量形成明显的影响。当声学模型参数量为 3.12 MB 时, MOS 仍可保持 4.47 分。这既证明了以紧凑型特征为根底的 MSMC-TTS 建模复杂度需求较低，一起也展现了该办法应用于轻量级 TTS 体系的潜力。

最终咱们在不同 MSMCR 根底上进行了 MSMC-TTS 比较，以讨论 MHVQ 与多阶段建模对 TTS 的影响。其间 V1 体系选用单阶段单码本的表征, V2 体系根据 V1 选用 4-head 矢量量化, V3 体系则根据 V2 选用两阶段建模。首先，V1 体系运用的表征具有最高的特征压缩比，但在剖析组成试验中表现出最低的齐备性，一起在 TTS 试验中表现出最差的组成质量。通过 MHVQ 增强齐备性, V2 体系在 TTS 作用上也得到了明显提高。V3 所运用的的多阶段表征尽管没有展现进一步齐备性的提高，但是在 TTS 上展现出了最佳的作用，无论是韵律天然度仍是音频质量均有明显改善。这进一步表明多阶段建模、多尺度信息保留在MSMC-TTS 中具有重要意义。

5. 总结

该作业从研讨紧凑型语音表征视点动身，提出一套新的高功能 TTS（MSMC-TTS）建模办法。该体系从音频中提取多阶段多码本表征，以代替传统声学特征。输入文本可被多阶段猜测器转换为这种由多个时间分辨率不同的序列组成的语音表征，并通过神经声码器转换到方针语音信号。试验成果表明，相较于干流的根据 Mel-Spectrogram 的 FastSpeech 体系，该体系展现出了更优异的组成质量，以及对建模复杂度更低的要求。

6. 作者信息

郭浩瀚：小红书多媒体智能算法团队实习生。本硕结业于西北工业大学，期间在 ASLP 试验室学习，师从谢磊教授。现博士就读于香港中文大学 HCCL 试验室，师从蒙美玲教授。迄今为止，作为一作，先后在 ICASSP、INTERSPEECH、SLT 国际语音会议上发表论文六篇。

解奉龙：小红书多媒体智能算法团队语音技能负责人。曾在ICASSP、INTERSPEECH、SPEECHCOM等语音范畴会议及期刊发表论文十余篇，长期担任ICASSP、INTERSPEECH等首要语音会议的审稿人，首要研讨方向为语音信号处理与建模。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

如何用紧凑型语音表征打造高性能语音合成系统