语音合成技术的发展趋势是什么?

分享到:

语音识别和语音合成技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话和听懂人说话的能力,是90年代信息产业的重要竞争市场。和语言识别相比,语言合成的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术。
 
目前已经成熟的技术应用有:高德地图、百度地图的导航
 
 
波形拼接合成方法
 
波形拼接的语音合成方法:机器能再生一个预先存入的语音信号,就象普通的录音机一样,不同之处只是采用了数字存储技术。简单地将预先存入的单音或词组拼接起来也能作到“机器开口”,但是“一字一蹦”,机器味十足,人们很难接受。然而如果预先存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,也有可能生成高自然度的语句,这就是波形拼接的语音合成方法。为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。
 
 
参数合成合成方法
 
参数合成的方法:用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音、调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等。因此,只要正确控制激励源和滤波器参数(一般每隔10~30ms送一组),这个模型就能灵活地合成出各种语句来。
 
 
按照人类言语功能的不同层次,语言合成也可分为三个层次
 
1.从文字到语音的合成
2.从概念到语音的合成
3.从意向到语音的合成
 
这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。不难想象,即使是按规则的文字到语音合成(文语合成)也已经是相当困难的任务。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。从这一点讲,文语转换系统实际上也可看作一个人工智能系统。
 
文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。
 
语音合成的发展方向
 
1.提高合成语音的自然度
 
提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。
 
2.丰富合成语音的表现力
 
目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动。
 
3.降低语音合成技术的复杂度
 
语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言,减小音库容量就是一个重要课题。
 
4.多语种文语合成
 
语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种。例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度。可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路。美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,值得注意。
 
罗姆的语音合成LSI
 
罗姆旗下蓝碧石半导体的ML22Q374、ML22Q394是小型、低耗电、适用播放10-20秒留言的播放用LSI。
 
因为本产品内置播放用的收录语音FlashROM、振荡器、D级功放、所以能够减少客户商品的零部件、本产品的小型封装也有助于最小面积而播放。
 
同时、内置D级功放产生低耗电、能够到手电池的长寿命。为作成语音数据、通过实用程序 ”Speech LSI Utility"、简易作成。将已作成的语音数据客户用着专用工具、能够写入到样品、进行客户的有效的开发工作。
 
继续阅读
喵喵机的热敏打印头你可以选这个!

热敏打印头打印方式有两种:热转印和热敏方式。热转印中增加了一条墨带,工作时墨带和转印纸同时转动,将施加到墨带上的油墨通过加热转移到纸上,具有优异的耐水性、耐化学性并可以在普通纸上打印,但难以安装纸张、胶带,结构复杂成本也较高。热敏则是直接使用了热敏纸,无需碳粉、墨带、油墨,纸张易安装,缺点是受温度、划痕影响成像效果。

LED灯驱动电源实例解析

罗姆开发了薄型化而且可调光的绝缘型大功率LED驱动器模块 BP5872。因为实现了薄型化与可调光,扩大了LED照明的应用。 而且,实现了市场需求很高的谐波对策,全球输入,高效率的要求,能够很容易的制成附加值高的LED照明产品。

快讯:罗姆子公司SiCrystal与ST 签订合作

罗姆集团旗下的 SiCrystal 公司与意法半导体签署一了份碳化硅(SiC)晶圆长期供应协议。SiCrystal 为一家在欧洲 SiC 晶圆市场占有率领先的龙头企业...

电源滤波器对音质提升效果有限,建议使用专用电源IC

今天我们继续来聊聊音响的音质问题。上次我们讲到,提高音质的方法有很多,其中有一个方法便是加装电源滤波器,那么,电源滤波器究竟有什么作用呢?

摩尔定律快速失效的今天,SiC能否就此起飞?

进入21世纪以来,随着计算机和自动化领域的快速发展,推动了半导体制造工艺和新材料不断创新,半导体新材料和新工艺的发展前景将会如何?且看小R为大家带来的《摩尔定律快速失效的今天,SiC能否就此起飞?》。