语音合成技术原理解析与应用探讨

发布时间：2022-08-24

来源：罗姆半导体社区 (https://rohm.eefocus.com)

标签：ROHM 语音合成

分享到：

一、语音合成技术原理

语音合成，即将文字转化为语音的技术，简称TTS。类似于人类的口述能力，它通过使用不同的音色来表达所需的内容。

语音合成技术主要由语言分析部分和声学系统部分组成，也被称为前端和后端部分。语言分析部分根据输入的文本信息进行分析，生成相应的语言规范书，确定如何发音；声学系统部分根据语音分析部分提供的语言规范书，生成相应的音频，实现发声功能。

语言分析部分

语言分析部分的工作流程如下，可以简单地描述语言分析部分的主要任务。

文本结构与语种判断：在输入待合成的文本后，首先需要判断其是什么语种，例如中文、英文、藏语或维语等。然后根据相应语种的语法规则，将整段文本切分为句子，并将切分好的句子传递到后续处理模块。

文本标准化：合成文本中可能包含阿拉伯数字或字母，需要将其转化为文字。根据设置的规则，对合成文本进行标准化处理。例如，“请问您是尾号为8967的机主吗？”中的“8967”是阿拉伯数字，需要转化为汉字“八九六七”，以便进行后续的文字标音等工作。再如，在数字的读法中，为什么上述的“8967”没有转化为“八千九百六十七”呢？这是因为在文本标准化的规则中，设定了“尾号为+数字”的格式规则，根据此规则进行播报。这就是文本标准化中设置的规则。

文本转音素：在汉语的语音合成中，通常以拼音对文字进行标注。因此，需要将文字转化为相应的拼音。然而，一些字存在多音字的情况，需要通过分词、词性句法分析来判断当前应该使用哪个读音，以及它是几声的音调。

例如，“南京市长江大桥”可以表示为“nan2jing1shi4zhang3jiang1da4qiao2”或者“南京市长江大桥”表示为“nan2jing1shi4chang2jiang1da4qiao3”。

句读韵律预测：人类在语言表达时常常带有语气和感情。TTS合成的音频旨在模仿真实的人声，因此需要对文本进行韵律预测，包括停顿的位置和持续时间，哪些字或词需要重读，哪些词需要轻读等。这样可以实现声音的抑扬顿挫、高低变化。

二、声学系统部分

声学系统部分目前采用了三种主要的技术实现方式，包括波形拼接、参数合成和端到端语音合成技术。

波形拼接语音合成

波形拼接语音合成技术通过事先录制大量的音频，以尽可能覆盖所有的音节音素，并基于统计规则的大型语料库将其拼接成对应的文本音频。因此，波形拼接技术是通过使用已有库中的音节进行拼接，实现语音合成的功能。一般来说，这种技术需要大量的录音数据，录音数量越多，效果越好，优秀的音库通常要求至少50小时的录音量。

优点：音质好，情感真实。

缺点：需要大量的录音数据，要求覆盖范围广，字与字之间的过渡生硬，不够平滑和自然。

参数语音合成技术

参数语音合成技术主要通过数学方法对已有录音进行频谱特性参数建模，构建文本序列与语音特征之间的映射关系，生成参数合成器。因此，当输入一个文本时，首先将文本序列映射为相应的音频特征，然后通过声学模型（声码器）将音频特征转化为可听的声音。

优点：录音数据量较小，可以共同训练多种音色，字与字之间的过渡平滑，自然度较高。

缺点：音质不如波形拼接好，较机械化，可能存在杂音等问题。

端到端语音合成技术

端到端语音合成技术是当前比较热门的技术，通过神经网络学习的方法，实现直接输入文本或注音字符，中间部分是一个黑盒子，然后输出合成的音频。这种技术极大地简化了复杂的语言分析部分，因此对语言学知识的要求大大降低，并且能够实现多种语言的语音合成，不再受限于语言学知识。通过端到端合成的音频，效果更加接近真人声音。

优点：对语言学知识要求降低，合成音频更加人性化，效果好，录音数据量较小。

缺点：性能方面有所下降，无法手动调优合成音频。

以上是对声学系统部分的简要介绍，也是目前主流的语音合成技术应用。当前的技术正在不断迭代更新，例如目前较热门的端到端技术包括Wavenet、Tacotron、Tacotron2和DeepVoice3等。对此感兴趣的朋友可以自行了解学习。

技术边界

当前语音合成技术已经相对成熟，并成功应用于多个领域，例如自动播报、文本阅读、新闻播报和热门的人机交互等场景。然而，目前的语音合成仍存在一些无法解决的问题。

拟人化

尽管当前的语音合成在拟人化方面已经取得了很高的水平，但专业人士通常能够听出是否为合成音频，因为合成音的整体韵律远不及真人，真人的声音带有呼吸感和情感。虽然TTS合成的音频声音接近真实，但在整体韵律方面会显得平稳，没有随文本内容起伏变化，单个词可能还会带有机械感。

情绪化

真人说话时可以察觉其当前情绪状态，在语言表达中，声音可以传达人的开心、沮丧等具体情绪状态。然而，单个TTS音库无法做到这一点。例如，在朗读小说时，小说中会有许多场景和不同的情绪，但使用TTS合成的音频，整体上情感和情绪较为平稳，没有明显起伏。目前优化的方法有两种：一是加入背景音乐，在不同场景下使用不同背景音乐，以减弱合成音的情感和情绪，营造氛围；二是制作多种情绪的合成音库，可以根据不同场景调用不同的音库来合成音频。

定制化

尽管我们听到语音合成厂商合成的音频效果还不错，但许多客户希望进行定制化，例如使用自己企业员工的声音制作一个音库，并达到与语音合成厂商相似的效果。然而，这是相当困难的，目前语音合成厂商的录音员基本上都是专业播音员，不是任何人都能满足制作音库的标准。如果技术能够实现对每个人声音的85%以上还原率，将会应用于更广泛的场景中。

三、效果指标和技术指标

随着语音合成技术的发展，语音合成（TTS）已经成功应用于生活中各个领域，实现了语音合成技术的落地应用。例如，在高铁、机场的语音播报、医院的叫号系统以及现在热门的语音交互产品中。作为一款产品，语音合成可以通过哪些指标来衡量其效果呢？

效果指标

MOS值

目前，行业内普遍认可的评估TTS合成效果的标准是MOS（Mean Opinion Score）值测试。专家会对合成音频的效果进行评分，分数在1到5之间，通过求平均得到最终的MOS值。显然，这是一种主观评分方法，没有明确的评分标准。评分结果受个人对音色喜好、对合成音频内容场景的理解和对语音合成的了解程度等因素的影响，因此可以说是有人各有所见，智者见智的测试方式。

由于TTS合成效果的评判具有主观性，在某些项目的验收中无法确定具体的验收标准。例如在定制音库的项目中，客户希望获得独特的定制音库，最后验收的标准肯定是客户对合成音频效果满意，这是一个非常主观的标准。对于TTS厂商来说，这是不公平的。因此，需要找到一些可量化的标准，以便更好地进行项目验收，避免因合成效果而产生分歧。这里推荐一种验收标准，即量化语音合成效果，对原始录音和合成音频进行盲测打分（MOS值测试），合成音频的MOS值应达到原始录音的85%以上（具体数值可根据项目情况确定），这样就可以进行验收，并且实现了量化。当然，评分团队可以由客户和TTS厂商的人员组成，也可以请第三方人员进行评分，以确保公平性。

虽然MOS值是一种相对主观的评估方法，但仍有一些可评判的标准。例如，在合成音频中，多音字的发音、在当前场景下数字的播报方式、英语的播报方式以及韵律方面是否连读词语、是否有正确的重读、停顿是否合理，音色是否适用于当前场景等，这些都可以作为评分的依据。

ABX评测

为了比较不同TTS系统的合成效果，可以进行合成效果对比性测试，选择相同的文本和相同场景下的音色，对比哪个TTS系统的合成效果更好。尽管这仍然是一种主观判断，但具有一定的对比性，能够判断哪个TTS系统更适合当前场景并且具有更好的合成效果。

性能指标

实时率

在语音合成中，合成方式分为非流式合成和流式合成。非流式合成是一次性传入文本，一次性返回合成的音频；而流式合成则是在文本传输给TTS时，TTS会分段传回合成的音频，这样可以减少语音合成的等待时间，在播报的同时也在合成，无需等到整段音频合成完成再进行播放。因此，实时率是衡量语音合成时间的一个指标。实时率等于文字合成所需时长除以文字合成的音频总时长。以下是实时率的计算公式：

为了提供最佳用户体验，要求“文字合成所需时长”≤“文字合成的音频时长”，即实时率应小于或等于1。

首包响应时间

在流式合成中，分段合成的音频会传输给客户端或播放系统。在合成首段音频时，也会耗费一定时间，这个时间被称为“首包响应时间”。为什么要统计这个时间呢？因为在语音交互中，根据项目经验和用户的容忍程度，当用户说完话后，机器人应在2000ms（甚至更低的1500ms）内开始播报回复，以避免出现空白时间或停顿。如果时间超过2000ms，用户明显感到等待时间过长，体验不佳，性急的用户可能会中途终止对话。2000ms不仅包括TTS语音合成的首包时间，还包括ASR（语音识别）和NLP（自然语言处理）所消耗的时间。因此，TTS首包响应时间应控制在500ms以内，以确保留有足够的时间给ASR和NLP。

并发数

人工智能的发展主要涵盖算法、算力和数据三个方面。性能指标实际上是算力部分的表现。目前，承载算力的服务器包括CPU服务器和GPU服务器。前文提及的实时率指标是针对单核单线程的CPU服务器或单卡单线程的GPU服务器而言。实时率的公式可以表示为：

为了最大程度地利用资源，只需确保实时率接近1或等于1，而不需要远小于1。因此，当单核单线程的实时率远小于1时，可以实现一核二线、一核三线等多线程，使得实时率达到1。这里的“几线”指的是并发数，也就是单核并发数。那么如何计算并发数呢？举个例子，如果单核单线程的并发数为0.1，则一核十线的并发数为1，也能满足需求，因此可以按照这个并发数提供服务给客户。并发数的计算公式如下：

合成100个字需要多少时间

对于一些客户来说，实时率和响应时间这些概念可能比较模糊。他们可能会问您的TTS系统合成100个字需要多长时间，或者每秒钟可以合成多少个字。为了方便与客户沟通，我们需要知道合成100个字所需的时间。这个数据可以通过计算大致估算出来，当然也可以直接进行测试来得到合成100个字的时间。下面主要介绍一种计算方法。

根据正常播报速度，一秒钟大约可以播报4个字左右。我们可以按照每次合成四个字进行计算，那么100个字的音频的持续时间大约为25秒（100除以4）。假设实时率为0.1，根据当前实时率的计算公式，可以得出合成时间为2.5秒。同样，可以计算出每秒钟合成的字数为（100除以2.5）40个字。

这里简单介绍了语音合成产品涉及的一些参数指标，还有一些在测试中需要了解的指标数据，例如CPU占用率、内存占用率、DPS（单位时间合成的音频总时长）和TPS（单位时间合成的音频任务数），以及TP99等。如果感兴趣的话，可以进一步了解这些数据。这些数据主要用于项目 poc 的测试或整体测试，可以算作对 TTS 产品的全面了解。

四、语音合成厂商

有许多厂商拥有语音合成技术，包括大型互联网公司和专注于人工智能领域的企业。

科大讯飞：科大讯飞在全球范围内的语音合成技术位居前列，其合成音频的自然度很高。讯飞官网提供的音库数量最多，涵盖了许多场景和外语音库。

阿里巴巴：阿里云官网的音库中有几个合成效果非常出色的音库，例如艾夏。合成的音频播放时带有气息感，拟人化程度相当高。

百度：百度的语音合成技术也十分强大，但提供的官方音库较少，具体评价不好做出。

灵伴科技：这家公司在语音合成领域非常重要。灵伴的音库合成音效果也非常出色，其中包括一个东北大叔的音库，主要使用东北话，整体韵律、停顿和重读都处理得非常到位。

标贝科技：标贝科技和灵伴科技一样，是语音合成领域中不可忽视的两个企业。他们的TTS合成音频效果非常拟人化，每个场景的风格也非常真实。

捷通华声：捷通华声是一家老牌人工智能企业，其合成的音频效果整体上也很出色，并支持多种语种的音库。

还有其他一些企业没有一一列出，因为上述企业在项目中或TTS技术应用较多。

关键词：罗姆语音合成LSI

继续阅读

碳化硅比热容：技术现状与未来发展方向探析

碳化硅（SiC）的比热容是其关键物理性质，随温度变化而展现独特优势，尤其在高温应用中。当前，通过实验测定和理论计算，科学家们已对碳化硅的比热容进行了深入研究，揭示了其随温度升高的增大趋势及受纯度、晶粒大小、制备工艺影响的规律。

MOS管过流保护：技术难点与保护原理深探

MOS管过流保护的核心原理是通过监测负载电流，并在电流超过设定阈值时切断MOS管的导通状态，以防止电路受损。实现这一保护的关键在于使用过流检测电阻和比较器来检测和控制电流。在实际应用中，还需考虑SOA等辅助电路以增强保护效果。

探索碳化硅比热容：材料性能与温度变化的奥秘

碳化硅（SiC）的比热容是其关键热学性质，随温度升高而增大，展现了在高温环境下的出色热稳定性。SiC的比热容受纯度、晶体结构和颗粒大小等因素影响。高比热容使SiC在电子器件、陶瓷材料和核反应堆等领域有广泛应用。通过控制晶粒尺寸、减少杂质、引入高导热第二相材料和表面改性，可优化SiC的热性能。

锂电池内阻揭秘：技术原理深度解析

锂电池的内阻是影响其性能和使用寿命的关键因素，通过IMP内阻技术可以精确测量。该技术基于充放电过程中的电压和电流变化关系推算内阻，并考虑温度、充放电状态等因素。电池的结构设计、原材料性能、制程工艺以及工作环境和使用条件均会影响锂电池内阻。极耳布局、隔膜结构、电极材料性能、制程工艺控制精度以及温度等因素共同决定了内阻的大小。

IGBT米勒效应：成因与影响缓解策略探讨

IGBT米勒效应是IGBT在工作时因内部电容效应导致输入端信号变化影响输出端电压和电流的特殊现象。它揭示了IGBT内部结构与外部电路间的相互作用，影响器件性能。为降低米勒效应，可选择合适晶体管和阈值设置，优化电路布局，采用负门极驱动方式或高频变换器技术。米勒效应对IGBT的放大倍数有显著影响，需在设计和分析中充分考虑。

语音合成技术原理解析与应用探讨

超高速、高精度热敏打印头TH300X系列

罗姆推出面向i.mx8系列的PMIC

高速接地检测CMOS运算放大器“BD77501G”

罗姆解决方案模拟器