第一篇:合肥工业大学研究生联合培养实践报告
合肥工业大学研究生联合培养实践报告 随着科学技术和信息化的快速发展,计算机在人类的生活中扮演着越来越重 要的角色。
人机交互能力也越来越受到研究者的青睐,语音合成技术作为人机交 互的核心技术之一,在自然语言处理、数字信号处理、随机过程处理等方法的推 动下,突破了传统的单纯语音计算算法的研究。
近些年来,语音合成技术发展迅 速,与其相关的语音学、语言学、自然语音处理、心理学也有了相应快速的发展,再加上人工智能、数字信号处理、嵌入式开发以及情感计算等也取得了迅猛发展,都为人机语音交互的研究提供了更好的理论基础以及发展方向。
1.国内外语音合成研究意义 语音是人们获取信息的一种最直接、最便捷的交流方式,语音中不仅包含了 许多文字符号信息,还包含了不同说话人在不同情况下传达的多种情感的变化。
语音合成是对输入的文字信息按照语言学规律进行分析,分段标记后,按照声学 处理规则将文字转换成语音信号输出,即让机器读出文字信息,使人们通过“听” 就可以明白信息的内容。
2.国内外语音合成技术的研究背景 语音合成的研究历史可以追溯到 18 世纪末,法国人 W.Von Kempelen 在 1791 年展示了一个机械式会说话的装置,机器内部采用了与声道结构类似的共振器,通过簧片改变音色,该装置可以产生元音、整个词语和语句。
自 20 世纪出现了电子合成器以来,语音合成的研究达到了飞速发展。
1930 年,贝尔实验室开发了声音编码器,它是一种用键盘操作的电子语音分析器和合 成器。1939年,贝尔实验室 H.Dudley 在其基础上进行改进,制作了电子式语 音合成器 VODER,利用共振峰原理制作得到的一个语音合成器,通过电子线路 来实现基于语音产生的源 /滤波器理论。
1960 年,瑞典语言学家 G.Fant 系统阐 述了语音产生的理论,推动了语音合成的进步 1982 年,MIT 教授 D.Klatt 设计 的串/并联混合型共振峰合成器,可模拟发声过程中的声道共振,元音和浊辅音 的产生用串联通道来实现,清浊音的产生用并联通道来实现,还可以选择和调整 声源,模拟不同的嗓音,它可以发出供用户选择的七中不同音色的语音,在发音 速度上增加到每分钟 350 词时也可以达到清晰、自然的效果。在这些创新研究的 带动下,其他语种的语音合成系统也相继实现,如日本的 Matsushita 电子公司利 用 DECTalk 系统开发了将日语和汉语转换成口语的系统,德国 Fraunhofer 学会 功效研究所成功开发了 DECTalk 的德语版本。世纪 80 年代末,语音合成技术有了新的突破,基于时域波形修改的语 音合成算法 PSOLA(Pitch Synchronous Overlap Add)的提出[3],较好地解决了语 音拼接的问题,大大提高了合成语音的自然度。世纪 90 年代中期,随着语音 识别技术中统计模型的出现,研究者提出了可训练的语音合成技术,该方法是基 于统计建模和机器学习的,根据一定的语音数据进行训练并快速构建语音合成系 统。其中,以基于 HMM 的建模与参数生成合成方法为代表。
对于国内的中文语音合成的研究起步较晚,从 20 世纪 80 年代开始,中科 院声学所、中科院自动化所、中国科技大学以及社科院语言所都相继开展了这方 面的研究,大致也经历了共振峰合成、线性预测合成和基于 PSOLA 技术的过程。
如 1993 年中国科学院声学所的 KX-PSOLA、1994 年中科院声学所开发的 “联想 佳音”语音合成系统,弓 I 入了基音同步叠加技术(PSOLA),在当年国家 863 评比 中获得第一名。1998 年,中国科技大学 KD-863 汉语文语转换系统采用了对数幅 度逼近算法(LMA)语音合成器,该方法有效提高了合成语音的音质和自然度。
随着统计模型方法的提出,很多单位和研究机构也开展了基于 HMM 参数的 语音合成方法的研究,如中科大、清华大学、IBM 中国研究中心以及微软亚洲 研究院等。其中,最具代表性的是中科大及科大讯飞公司,202_ 年以来,中科 大讯飞通过采用 LMA 声道模型的技术,能够合成出高自然度的语音 [5][6]。
3.语音合成技术 3.1 波形拼接合成方法 波形拼接合成方法是一种相对简单的语音合成技术。
波形拼接合成方法的基 本原理就是根据输入文本分析得到的信息,从预先录制和标注好的语音库中挑选 合适的单元,进行少量的调整(也可以不进行调整),然后拼接得到最终的合成语 音,其中用来进行单元挑选的信息可以是前端分析得到的韵律文本,也可以是生 成的声学参数(比如基频、时长和谱参数),或者两者兼有。简单点说,就是根据 待合成的信息,在语音库中取出相应单元的波形数据,拼接或者编辑到一起,经 过解码恢复语音。
在这个过程中,语音合成器的主要功能是实现语音的存储和回 放。
一方面,基于波形拼接的语音合成的效果好坏直接取决于语料库的规模大小 以及所选取的合成单元,它需要足够大的存储空间来存放这些大规模的语料库,需要较高的计算和存储能力,相应的时间和空间的投入较多; 并且占用大规模的 内存空间,也不适合应用于嵌入式系统和移动设备终端; 并且,如果待合成语句 中含有超出训练语料库覆盖范围的音段,当训练库覆盖不够并且合成过程中挑选 不到合适的单元时,或者某些拼接单元的连接处出现不连续的现象时,语音合成 效果明显下降;另一方面,波形拼接
合成单元一旦确定就无法做任何调整和改变,也无法根据上下文来调节其韵律特征,这样就使得发音风格比较单一,当需要改 变合成语音的速度、发声风格、性别等特征时,需要大规模重新调试优化整个训 练流程,可扩展性不够。
基音同步叠加技术(PSOLA)是基于波形拼接的语音合成中应用最广泛的 一种方法。
PSOLA 算法在语音波形片段拼接之前,先根据语义对拼接单元的韵 律特征进行调整,这样既可以保留原始语音基元的主要音段特征,又可以使拼接 单元的韵律特征符合语义,从而使合成语音获得较高的自然度和可懂度。
在对拼 接单元的韵律特征进行调整时,它以基因周期为单位进行波形的调整,保证了语 音波形及频谱的平滑连续。
目前,用这种方法至少实现了七八种语言的语音合成 系统。如日本的 NTT 公司基于波形文件实现了日语规则合成系统,法国 CNET 以双音素作为语音单元,用基于 HMM 的语音匹配法进行特性标注,实现了法语 的文语转换系统。在国内,中科院声学所、清华大学和中国科技大学等也采用 PSOLA 技术的波形拼接来实现语音合成系统。
3.2 参数合成方法 参数合成方法是一种比较复杂的语音合成技术。
基于参数的语音合成系统是 通过数字信号来模拟发声,首先将我们发出的声音转化为数字信号,这些信号可 能是周期脉冲信号或者是随机的噪音序列,在合成过程中,将这些信号输入到一 个特定的滤波器(如带通滤波器)中,最后通过输出设备输出合成语音。在这种模 式下,通过调整滤波器的参数可以控制滤波器来发出不同的声音,也可以通过调 整数字信号的周期或者强度来改变语音的韵律等。
所以,只要能够正确的调整数 字信号或者滤波器的参数,就可以合成出不同的语音。
3.3 规则合成方法 规则合成方法是一种高级的语音合成方法,在合成前,可以不确定合成的词 表,基于规则的语音合成系统中存储的是最小语音单位的声学参数。
可以按照多 种规则,例如由音素组成音节、由音节组成词、再通过词组成词组、由词组组成 语句,以及控制音高、音强等韵律特征,最后得到待合成的字、词或者句子。该 方法的研究核心是挖掘出说话人在说话过程中,是按照哪种规则来生成语音单元 的,将这些相关的规则给予机器,在机器中合成语音。汉语是一种特殊的语种,因此在处理语音单元的规则时,有许多需要注意的问题,单独存在的元音和辅音 与发声中连续的元音和辅音不同,不同语境下的同一词语表达的意思不同,根据 上下文相同读音的多音字的描述不同,声调在何种情况下需要调整,声韵母是如 何产生相互影响。
汉语属于音调语音学,声学单元是拼接的基本单元,它可以是音素、双因素、三因
素、音节、词语、句子等。汉语具有较复杂的韵律结构,语句中的语音层次 为从音素到音节,从音节到词语,最后从词语到语句。所选取的基元越小,语料 库所占的存储空间就越小,拼接使越灵活,变化就越复杂。
4•语音合成基本原理 语音合成是对输入的文字信息按照语言学规律进行分析,分段标记后,按照 声学处理规则将文字转换成语音信号输出,即让机器读出文字信息,使人们通过 “听”就可以明白信息的内容。其系统框图为:
图 1 语音合成系统框图 4.1 文本分析与处理 文本分析与处理是使计算机能够识别文字,并根据上下关系在一定程度上对 文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式告诉计算机,另外还要让计算机知道文本中哪些是词,哪些是短语、句子,发音时应该停顿的 位置和时长等。
文本分析与处理的工作过程包括:
图 2 文本分析与处理过程(1)将输入的文本规范化,在这个过程中处理用户可能的拼写错误,并将文 本中出现的一些不规范或无法发音的字符过滤掉;(2)分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分 析文本中出现的数字、姓氏、特殊字符以及多种多音字的读音方式;(3)根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气 的变换以及不同语音的轻重方式。最终,文本分析模块将输入的文本转换成计算 机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。
4.2 韵律规则库 任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各 不相同,这些都属于韵律特征。
韵律研究是一个复杂的系统工程,涉及到语言学、语音学、心理学、语用学
等学科的综合知识。一个语音单元除了由元音和辅音按时间顺序排列的音段成分 之外,还必须包括一定的超音段成分,否则这个音节就不可能成为有区别意义的 有声语言。目前对韵律研究的重点是音高、音长、音强三个超音段参数在连续语 流中的分布规律及其相互的作用,而研究的基本方法仍是基于对生理特征的分析 及大语料库的统计分析,韵律特征的特点如表 1.韵律特征 波形特征 分布规律 相互作用及影响、口 曰高 音高的 大小对应于 波形的基音 周期 音咼的调整则是 按照目标值确疋曰咼 调整系数,对拼接单兀 的音咼进行压缩和拉 伸 连续语音的音咼曲线融入了发音 人的生理特征、感情、语义、语 境以及很多的个人特征信息 音长 音长的 调整对于稳 定的波形段 比较简单的 只需要以基音周 期为单位加减波形即 可 连续语流中的音节时长取值受很 多因素的影响,如声韵结构、声 调、音节所在词的结构、重音模 式、音节在语流中的位置影响等 音强 音强对 应于语音波 形的幅度 音强的改变只需 要加权波形数据即可,但是对于一些有重音 变化的音节,幅度包络 也需要改变 音强对于抑扬顿挫的语调的 产生也是很重要的,为重音并不 是通过提高语音的强度来表达,表 1 韵律特征的特点 目前,韵律是合成系统的薄弱环节,所用韵律模型都是对韵律普遍规律的单 一应用。把韵律的共性与个性有机的结合起来,是提高语音合成系统自然度的关 键。
4.3 语音合成器的设计 线性预测合成方法是目前比较简单和实用的一种语音合成方法,它以其低数 据率、低复杂度、低成本,受到特别的重视。
LPC 语音合成器利用 LPC 语音分析方法,通过分析自然语音样本,计算出 LPC 系数,就可以建立信号产生模型,从而合成出语音。线性预测合成模型是一 种“源滤波器”模型,由白噪声序列和周期脉冲序列构成的激励信号,经过选通、放大并通过时变数字滤波器,就可以再获得原语音信号。这种参数编码的语音合 成器的框图如图 3 所示。
图 3 LPC 与语音合成器原理 由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来 的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来 决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为 语音信号特征参数用于语音合成等方面。
5.语音合成的应用 随着计算机技术进入了网络和多媒体时代 语音合成技术也有了飞速的发展 TTS 已应用到信息咨询电话银行、办公自动化等各个方面 它把声音和文字图像 集成在一起,增强了人们的理解。电子文档的有声输出 目前,计算机中存有大量文本,语音合成技术可提供声音输出,弥补只有屏 幕显示的不足,无论以任何方式得到的文字,都可将其转换成声音。声信有声服务 网络技术的飞速发展 In ternet 服务项目日益增多时效性提高,电话已成为 人与网络交互信息的终端,如通过电话查询股票行情,这里不但用到语音合成技 术,还必须与电话技术紧密配合,即 CTI Computer Telephone Integration 或 IT In ternet Telepho ny 这促进了电话网和数据网的结合,为人们提供了全新的服务,TTS 技术已应用到银行、邮局、劳保、证券、专利、借助 TTS 技术把数据库中 的文字变成声音,用户利用电话收听即时变化的信息。卫星定位系统 采用全球卫星定位系统(GPS)来提供道路状况和定位信息是运输交通行业的 一大趋势,在车载 GPS 上加入语音技术,可使得驾驶员在眼与手忙的情况下,通过语音实时接受动态路况信息及通知、公告,及时获取感兴趣的车主个性化定 制的信息,将平面显示导航上升到立体语音导航。计算机通过语音将卫星的实时 状态汇报给监视人员,极大的降低了监视人员的观察强度,提高了人机系统的工 作效率。
6.HMM 基本概念及原理 6.1 马尔可夫链 马尔可夫链是马尔可夫链随机过程的特殊情况,它是状态和时间参数都离散 的马尔可夫链过程。
设随机序列 X t,在任一时刻 t,它可以处在状态 $,S 2 , ,S N,且在 t+1 时刻 所处状态的概率为 P t!,只与时刻 t 状态下的 P t 有关,而与 t 时刻以前所处的任 何状态无关,则称 X t为马尔可夫链。其数学表达式如下:
P(X t i P t i | X t P t ,X t i P t i , X i P i)“八(1-1)P(X ti P t i |X t P t)式中 P i , P 2 , P t , P t i(S i ,S 2 , S N)
(i-2)
式 i 又被称为马尔可夫假设。
0.4
图 4 表示一个离散的马尔可夫过程,其中四个权表示四个状态,每条边表示 图 4 马尔可夫链 一个可能的状态转移,权值表示其转移概率。例如,状态 mi 到 口2 之间只有一条 边,权值为 i.O。这表示从状态mi 只可能转换到状态 m 2,转移概率为 i.O。从 m3 出发的有两条边:到m3 和到 m4。
其中权值 0.7 表示:如果某个时刻 t 的状态 St 是 m3,贝U 下一个时刻的状态st i m3 的概率是 70%。如果用数学符号表示为[42]: P(S t i m 3 I S t m 2)0.7(1-3)类似的,有:
P(s t i m 4 |s t m 2)0.3(i-4)6.2 隐马尔可夫模型(HMM)HMM 是在马尔可夫链的基础上发展起来的。由于实际问题要比马尔可夫 链描述的更为复杂,观察值的个数与状态的个数可能不一样,需要通过一个随 机过程去感知状态的存在及其特性,这样的模型就称之为 HMM。对于任一时 刻 t 的状态 S t 是不可见的。观察者是无法预测一个状态序列 s i , S 2 , S t 的转移概率 等参数。但是,隐马尔可夫模型在每个时刻 t 都会输出一个符号 o t,而且 o t 仅和 S t 相关。这个假设又被称为独立输出假设 [20]
0
下面我们再通过一个简单的例子来说明隐马尔可夫模型的基本概念
图 5 表示在每个状态 S t 下相应的输出 O t。这里 0 1 ,0 2 ,0 3 ,0 4 可以理解为我们实 际说出的语音,状态 S 1 ,S 2 ,S 3 ,S 4 可以理解输入的其他存储方式,所以我们只需从 所有可能的识别结果中找到最有可能产生 0 1 ,0 2 ,0 3 ,0 4 那个的 S i ,S 2 ,S 3 ,S 4。用概率 论的语言来描述,就是在已知 0 1 ,0 2 ,0 3 ,0 4 的条件下,求条件概率 [25] : S i , S 2 ,S 3 ArgMax P(s,S 2 ,S 3 , 10 1 ,0 2 ,0 3 ,)(1-5)all S 1 ,S 2 ,S 3 其中 Arg 是参数 Argument 的缩写,表示能获得最大的那个信息串。可以看出直 接还是比较麻烦的,不过可以间接地计算它的值。利用贝叶斯公式可以将式 1-5 变换为:
P(s s s |o o o)
P(O n O 2 ,O 3 , |S 1 ,S 2 ,S 3 ,)P(S 1 ,S 2 ,S 3 ,)
(16)
P(S 1 ,S 2 ,S 3 , 10 1 ,0 2 ,0 3 ,)(1-6)P(O 1 ,O 2 ,O 3 ,)经过上面等价变换以后,语音信号。仆。
2,03 ” 产生后,此时P(O1,O 2 ,O 3 ,)就是 一个常数,可以忽略不计,所以只需要求取公式 2-6 分子上的值。根据马尔可夫 假设和独立输出假设,可以将得到:
P(S 1 ,S 2 ,S 3 , 0 1 ,0 2 ,0 3 ,)P(O 1 ,O 2 ,O 3 , |S 1 ,S 2 ,S 3 ,)P(S 1 ,S 2 ,S 3 ,)t
P(O t |S t)P(S t |S t 1)(1)如何找出公式 1-5 的最大值,进而找到识别的句子 环 6, 岂,可以利用维 特比算法,后面会详细的介绍。在公式 2-6 中我们把P(S1,S2,S3 , |01,02,03 ,)叫 做“声学模型”(AcOUStic MOdel),而P(Sl,S2,Ss,)叫做“语言模型”。
HMM 可以定义为五元组:
(N,M, ,A,B)或者(S,V, ,A,B)N 表示模型中马尔可夫链的状态数目。通常使用有限状态集合 S
久邑丄,S N来表示独立的状态,使用qt 表示时刻 t 的状态。
M 每个状态表示的不同观察符号的数目,表示每个状态下所对应的可能观 察值数目。
M 个观察值可以表示为 W,V 2 , V M,记 t 时刻观察到的观察值为Ot,那么 °t(0 1 ,0 2 , 0 M)。
表示为初始状态概率,(1 , 2 N),表示每个状态的概率起始大小。
其中 i P(s)1 i N(1-8)A 状态转移概率矩阵,(aj)N
N, aij表示在状态mi 条件下,下一个状态是 mj 的概率。其中,a ij P(S t mi j |S ti mJ 1 i , j N(1-9)B 观察值概率矩阵,(b jk)N N,b jk 表示在状态 m j 下,观察值输出的是 V k 的 概率。
其中,根据以上的分析可知,HMM 实际可分成两部分,一部分为 Markov 链,由 A 描述,产生状态序列;另一部分是一个随机过程,由 B 描述,产生观察序列 如图 6 所示,其中T 为观察值时间长度。
马尔可夫链 S 1 ,S 2 ,S 3 ,随机过程。,。,。,(,A)状态序列(B)观察值序列
图 6 HMM 模型组成 根据 B 的不同,HMM 可分为离散、连续、半连续等不同类型。
HMM 是基 于马尔可夫链的,马尔可夫过程是一个随机过程 S
t :t T,它具备这样的性 质,即已知t时刻过程所处的状态S t S t,在 t 时刻以后的过程将要到达的状态 与 t 时刻以前过程所处的状态无关,这个性质也称为过程的无后效性或马尔可夫 性。马尔可夫过程 St :t T可能取值的全体构成状态空间,可以是连续的或 离散的;马尔可夫过程的指标集 T 也可以是连续的或离散的。
6.3 HMM 的基本问题和解决方法 基于 HMM 的语音合成系统中主要有三大问题: 1 评估问题。隐马尔可夫中的评估问题就是已知模型参数,即给定观察序b j P(O t V k | S t m j)所以一个 HMM 模型可以写成:
(N,M ,,代 B)或简写成(,A,B)1 j N ,1 k M(1-10)(1-11)(1-12)
列 ° O I O 2 L
O T 和模型 AB,,计算某一特定输出序列的概率p
o:,然 后找到最有可能的模型。通常采用前向算法来实现。
前向算法中,定义前向变量为 [36] :
t(j)P(° 1 ,° 2 , ° t ,s t i |)(1-13)(1)初始化:对 1 i N,有
4(0 1)
(1-14)
假设存在两个状态 S,S 2 那么就有两种可能产生观察序列 ° 1。若状态 1 发 出观察值 ° i 的概率是 b i(° i),其初始概率为 i,若状态 2 发出观察值 ° i 的概率是
b 2(01),其初始概率为 2,则可以计算出:
P(0i |)「 biQ)2 *b 2(oJ(1-15)(2)递推:当 1 t T 1,1 j N, 有
N t1(j)b j(0 t 1)t(i)a j(1-16)i 1
其中Sj(ot1)表示在时刻 t+1 的隐藏状态 Sj 下观察状态的概率,后面一部分 表示所有 t 时刻的隐藏状态到 t+1 时候的隐藏状态Sj 个概率求和。
(3)终止:
N P(o|)T(i)(1-17)i 1 最后,对到达当前时刻 t 的所有状态求和,就可以得到最后观察序列的概率。
这种算法计算量较小,只需要 N 2 T 次运算。
图 7 计算前项变量 t 1(j)的递推过程参数生成问题。已知三项特征参数,即某个状态序列 Q q1q2L q T,需要 估计该系统在此状态序列 Q 时最可能产生的观察序列。,即给定状态序列 Q q1q2 L q T 和模型参数 A,B,,求在某种有意义的情况下最优的相关观
察序列 ° OlO 2 L 5。实验中常用维特比(Viterbi)算法来实现。
这个算法解决对给定一个的 HMM 模型(,A,B)和一个可观察值序列 O O 1 ,O 2 , O T,如何去确定一个最佳状态序列 S *
s 1 *,s * 2 , ,s T *的问题。
Viterbi 算法可以描述如下 [27] :
(4)路径回溯,确定最佳状态序列:
Viterb 算法也是一种格型结构,类似于前向算法,在前面算法中对每个状态 值求和,而在 Viterbi 算法中先求取每个状态下概率最大的值,并记录下状态,最后回溯求出整个隐藏状态值。训练问题。即 HMM 参数估计问题。可以描述为对于给定一个输出序列 O ° 1 ,° 2 , ° T,如何调整参数模型(A,B,)的参数,使得 P(O|)最大。这 就是模型的训练问题,确定 HMM 特征参数的准则是最大似然准则。通常用 Baum-Welch 算法来解决。
定义 Oj)为给点训练序列 0 和模型 时,HMM 模型在 t 时刻处于 i 状态, t 1 时刻处于 j 状态的概率,即 [28]
t(i, j)P(s t i,s t1 j|0,)可以推导出定义 t(i)为时刻 t 时沿一条路径 大概率,即有 s 1 ,s 2 , S t,且 q i,观察到 ° i ,° 2 , ° t 的最 t(i)max P(s 1 ,s 2 , s 1 ,s 2 , ,s t 1 s t ,s t i,O 1 ,O 2 , O t |)(1-18)那么,求取状态序列 初始化:对(1)S *的过程为 N,有 1i 1(i)i b i(O 1)
(1-19)1(i)(1-20)(2)递推:对 2 t T,1 j N, 有 t(j)m 1 i a N x[ t 1(i)a ij ] b j(O t)(1-21)t(j)argm 1 i a N x[ t1(i)a ij ](1-22)(3)终止:
P m 1 i a N x[ T(i)](1-23)s T argm 1 i a N x[ T(i)](1-24)s t t 1(s t 1)
t T 1,T 2, ,1(1-25)(1-26)
t(i, j)[ t(i)a j b j(0 t i)t i(j)]/P(O |)(1-27)
那么,HMM 在时刻 t 处于 i 状态的概率为 N t(i)P(s ti ,O|)t(i,j)j i T 1 因此,t
(i)表示从 i 状态转移出去次数的期望值, t 1 移到状态 j 次数的期望值。由此,导出 Baum-Welch 算法中的著名的重估公式 1(i)T 1 t(i, j)j T 1 t(i)t 1 T t(j)t 1 t(j)t 1 那么,HMM 参数(,代 B)的求取过程为,根据初始化模型(,代 B)和观察值序列 0,由重估公式(1-29)、(1-30)、(1-31)得到一组新的参数-「 , 金,0)。重复这个过程,逐步改进模型参数,直到 P(O|)收敛,即不再 明显增大,此时的「即为所求值模型。
7•基于 HMM 的语音合成系统框架 图 8 是一个基于 HMM 的可训练语音合成系统框图。它是由训练部分和合成 部分组成的。在训练阶段,对用于训练的预料进行参数提取,包括反应激励特性 的基频参数和反应声道特性的频谱参数等。
在 HMM 建模过程中,基频参数采用 多空间概率分布 MSD(Multi-space Probability Distribution),谱参数部分采用连续 概率分布的 HMM 进行建模。利用了 EM(Expectation Maximization)算法实现最大 似然估计。在合成部分,给定词和模型,寻找最有可能的符号序列。首先,把一 个给定的词序列转化为上下文相关标记序列,依据标记序列上下文相关 HMM 的 拼接以生成语句的 HMM;接着,语音参数产生算法依据语句 HMM 产生频谱参 数序列和激励参数序列;最后,由合成器根据频谱参数序列和激励参数序列合成 出语音。t(i)t(i)/P(O|)(1-28)T 1 ”,而 t(i,j)表示从 i 状态转 t 1(1-29)(1-30)(1-31)b jk
7.1 基于 HMM 语音合成系统的训练阶段 在 HMM 模型训练前,首先要对一些建模参数配置,包括建模单元的尺度、模型拓扑结构、状态数目等。模型参数配置如下:
1)
声学参数:采用 24 阶 LSP 参数和 LSP 相邻阶差分参数 DAL 结合来替代 24 阶的 MCEP 参数进行建模;(本文采用的分析合成器为 STARIGHT,在参数提 取中,首先通过 STRAIGHT 分析得到频谱包络,然后拟合误差最小准则求取全 极点模型中 LPC 参数,然后再转换为 LSP 参数。在合成过程中,则是首先将 LSP 转换为LPC 参数,然后得到对应全极点模型的谱包络,并结合输入的基频参数 合成出最终的语音)
2)
建模参数:对声韵母单元进行 HMM 建模,其中声母(21 个)采用 3 状态模 型,韵母(38 个)采用 5 状态模型,此外对静音段也采用 3 状态模型; 3)
拓扑结构:采用无跳转从左至右各态历经的拓扑结构; 4)
混和高斯数目:模型训练可以对 HMM 进行上下文扩展,因此采用单高斯 模型。
在参数配置完成后,还需要进行数据准备。一般训练数据包括两部分:声学 数据以及标注数据。其中声学数据包括谱和基频,它们可以通过一定的方法从语 音波形中分析得到。标注数据主要包括音段切分和韵律标注,其中切分信息可以 通过自动或人工的方法进行。除此之外,模型训练之前,还有一个重要的工作就 是对上下文属性集和用于决策树聚类的问题集进行设计,即根据先验知识来选择 一些对声学参数(谱、基频和时长)
有一定影响的上下文属性并设计相应的问题 集,比如前后声韵母、前后调等。这将影响合成语音的语种或发音风格。基于 HMM的语音合成系统的训练过程如下图 9 所示。
输入 文本 图 8 基于 HMM 的语音合成系统流程图
图 9 基于 HMM 语音合成系统的训练过程框图 1.方差下限估计 在上下文模型训练中,上下文属性可能的组合数远远大于训练数据的数目,每个上下文相关模型对应的训练数据可能只有一到两个,从而模型均值直接拟合 到这一两个数据上,方差接近于零。
方差接近零会导致合成语音平淡,没有起伏 的问题。为了避免这种情况发生,我们预先设定一个方差下限。
由于采用基频参 数和谱参数的静态以及动态特征来进行 HMM 建模,因此对不同的参数需要设置 不同的方差下限。
对此,所有数据的统计属性都来自自动计算各阶参数对应的方 差下线。本文中,我们采用 HCompV 这个工具(HTS 工具包中的一种工具,以同), 对基频、频谱的各阶参数根据训练数据自动计算对应的方差下限。
2.单音素模型训练 在进行方差下限估计的准备后,要对对应的单音素 HMM 模型进行初始化和 训练,得到的模型用于进行上下文相关模型的扩展和初始化。
一般先进行 Viterbi 训练,然后进行 Embedded 嵌入式)
训练。这一步运用 HI nit 和 HRest 训练工具。
3.上下文相关模型训练 在得到训练好的单音素模型后。
先根据上下文属性集合进行模型扩展,该过 程采用工具 HHEd。然后对扩展后的模型进行 Embedded 训练,这一步采用的工 具为HERest。由于每个因素在不同的上下文环境中发音会发生相应的变化,因 此,建模过程中需要考虑到不同上下文环境对合成语音的影响。
一般上下文环境 选择包括前后因素、重音和韵律边界。
其中前后音素记录当前因素的前一个因素 和后一个因素的具体内容。
由于不同因素组合时,会发生连续等现象的音变,这 样会改变原有因素的声学特征,所以在考虑上下文影响时,将模型表示为 “| I-c+r” 的形式,针对不同前后因素组合来建模。
语法重音对因素的声学特征有很强的影 响,语法重音分为韵律词重音、韵律短语重音和语调短语重音。
当因素位于不同 的重音位置时,其发音会发生相应的变化,重读的程度也不同。
因此对重音的影 响,也
应该在建立声学模型时考虑进去。
最后是韵律边界的影响。
韵律边界是从 声学的角度,将语句划分为一定的层次结构。
韵律词是从声学角度来判断,就是 在语句发音中组合比较紧密的音节、语法词的组合。
从声学角度看,韵律词就是 语音发声的基本单元,而韵律短语边界是由韵律词组成,在韵律短语的边界能明 显感到有停顿的存在。语调短语边界就是指在连续语音中存在比较长时间的停 顿。由于采用的上下文属性的集合数远大于训练数据的数目,因此对每一个上下 文相关模型,其对应的训练数据非常有限。
4.基于决策树的模型聚类 由于对于每一个上下文相关模型,其对应的训练数据可能只有一到两个,导 致模型的参数在训练后基本上都 “过拟和” 到那一两个数据上,即完全由那几个 数据决定模型的均值与方差参数。
对此,我们采用基于决策树的聚类方法对上下 文相关模型进行聚类,以提高模型的鲁棒性以及模型复杂度和训练数据量之间的 均衡性。被问到的属性问题构成对应参数的决策树。
工具 HHEd 被用来进行聚类。
在决策树聚类的具体过程中,挑选合适的问题对结点进行分裂需要关注两个 关键的问题:一是如何计算分裂问题的得分以及确定相应的得分门限。
在本文中,使用的是最短描述长度准则,分裂问题的得分计算和最大似然估计准则相同,但 门限可以根据训练数据量,以及使用的特征维度自动估算得到。
二是确定结点中 所包含的训练数据的最小数目门限。
5.聚类后模型训练 在进行模型聚类后,需要对聚类后的模型进行进一步的训练,以优化其模型 参数,其训练算法与上下文相关模型训练相同,同时输出各个状态模型的状态停 留时间的统计数据。该过程采用工具 HERest。
6.时长建模 首先根据 5 中得到的各个状态模型的停留时间的统计信息,来对上下文相关 的时长模型进行初始化,作为时长模型的训练初值,然后采用以上相同的决策树 的方法对时长模型进行聚类和训练。这一过程中运用到工具 HHEd 和 HERest。
通过以上的训练过程,最后训练得到的模型包括谱、基频和时长参数的聚类 HMM 以及各自的决策树。此外,可以看出上面整个训练流程都是自动进行的,人工干预很少。
7.2 基于 HMM 语音合成系统的合成阶段 在合成过程中,我们先要对测试文本进行前端分析,得到所需要的上下文属 性及标注信息,然后根据这些属性在时长、基频和谱参数的聚类决策树基础上进 行分析,得到相应的模型序列,由状态时长 HMM 得到基元各状态的持续时长; 根据状态时长、基音周期 HMM 和谱参数 HMM,进行参数生成,最后传入 STRAIGHT
这样的参数生成器合成出最终的语音。
具体的实现过程如图 10 所示 图 10 基于 HMM 语音合成系统的合成阶段流程 在前端分析过程中,测试句的文本分析同训练数据的前端分析; 在参数生成 的过程中,我们先是由时长模型进行状态时长分配,即解析得到基频和频谱参数 的状态序列后,再由最大似然准则分别生成基频和频谱参数,最后将基频和频谱 参数传入参数合成器,得到最终的语音波形。
在合成过程中,采用 STRAIGHT 方法。它是一种针对语音信号的分析合成 算法,它利用提取的语音参数恢复出高质量的语音,并能对时长、基频以及谱参 数进行灵活的调整。
STRAIGHT 方法的核心思想是源—滤波器的思想。以往采 用的一些算法合成音质不够好,而且调整也不灵活。现在采用的 STRAIGHT 算 法是在原有的基础上进行了改进。
一方面通过采用一些基于听觉感知的方法对语 音合成端进行改进,提高语音合成质量; 另一方面通过消除谱参数中的周期性来 提高谱估计的准确性,从而实现源于滤波器的完全脱离,提高了参数调整时的灵 活度。它主要由三个部分组成:
1.去除周期影响的谱估计 文中是通过对窗函数的调整来达到平滑的目的。
它包括两个方面的平滑,一 是去除时间轴上的周期性,另一个是去除频率轴上的周期性。
(1)去除时间轴上的周期性:
采用基音同步叠加补偿窗的方法来计算频谱,并在时域上平滑; 这时需要重新构建一个窗函数,可以对基音周期自适应; 通过 该窗函数,使最后的频谱对基音周期的误差敏感度降低。
(2)去除频率轴上的周期性:通过对频谱卷积三角窗,并进行频率轴上的平滑,得到最终的谱包络。
2.平滑可靠的基频轨道提取 通过在频谱上进行谐波分析,可以得到更为精确和稳定的基频轨迹。
3.合成器的实现。
在使用 STRAIGHT 合成语音时,需要的输入数据为语音的基频曲线数值和 经过时间轴和频率轴平滑后的二维的谱包络。
在合成时使用基于基音同步叠加和 最小相位冲激相应的方法,并在合成过程中实现时长、基频和谱参数的调整。
第二篇:联合培养研究生协议(定稿)
联合培养研究生协议书
甲方:南京工业大学环境学院
乙方:
甲乙双方根据平等、自愿、协商一致原则,就南京工业大学环境学院XXX(学号:)硕士研究生推荐到乙方做联合培养研究生,并达成如下协议:
一、甲方的权利和义务
1、推荐学生的学籍仍在甲方。
2、论文完成后需返回学校,参加甲方组织的学位论文答辩。
3、推荐学生需定期将课题大致进展情况向甲方导师作书面汇报。
二、乙方的权利和义务
1、乙方为推荐学生配备第二导师,提供难度符合硕士毕业学位论文要求的相关研究课题。
2、课题研究经费由乙方提供。
3、乙方负责推荐学生的日常管理、提供必要的条件,生活费用由乙方和学生共同承担。
4、推荐学生需与乙方签订保密协定,相关研究成果属于乙方。但并不影响甲方撰写论文并发表,达到研究生毕业水平。
5、学生在乙方工作期间,应提供保险,发生人身伤害等意外事件的赔偿事宜,按所购买保险的相关规定执行。
甲方研究生:
甲方导师:
甲方(签章):
乙方(签章):
签订日期:
****年**月**日
签订日期:
****年**月**日
第三篇:合肥工业大学202_年国家公派研究生项目联合培养博士研究生选派办法
合肥工业大学202_年国家公派研究生项目联合培养博士研究生选派
办法
一、项目简介
国家公派研究生项目是指为实施科教兴国战略、人才强国战略,实现全面建设小康社会、构建社会主义和谐社会提供强有力的人才支撑和智力保证,加速高水平大学和重点学科建设,在重点建设的高水平大学中选拔一流的学生,到国外一流的院校、专业,师从一流的导师,培养一批若干年后国家建设所需各行各业拔尖创新人才的留学项目。
二、选派计划
1、选派规模与选派类别 202_年我校作为“211工程”学校与国家留学基金委签约的方式确定选派计划和双方的责任义务。
2、推荐名额
202_年我校将选派15名联合培养博士研究生,将按一定比例上报国家留学基金委。
3、留学期限
联合培养博士研究生的留学期限为6-24个月;
4、选派专业领域
本项目重点支持《人才规划纲要》、《科技规划纲要》确定的重点支持学科、前沿技术、基础研究、人文及应用社会科学领域。学校重大科研项目、创新团队、创新基地和平台、国家重点实验室、重点学科及人才队伍建设需要确定具体选派专业和领域。
5、留学单位
留学人员应派往教育、科技发达国家和地区的知名院校,或国际知名的研究所、实验室。可利用国家留学基金委与国外教育、科研机构合作项目渠道派出。
6、资助内容
国家留学基金资助一次往返国际旅费和规定期间的奖学金生活费,资助标准及方式按照国家有关规定执行。
申请教育部/留学基金委与国外有关教育/科研机构合作项目有特殊规定的,按各项目的具体规定执行。
三、申请条件、1、具有中国国籍,热爱社会主义祖国,具有良好的政治素质,身心健康,无违法违纪记录,有学成回国为祖国建设服务的事业心和责任感。
2、具备扎实的专业基础,较强的学习、科研能力和交流能力,综合素质良好,学习成绩优异,具有较强的发展潜力。
3、申请时年龄不超过35岁(以申请截止时间为准)(1977.3.20以后出生)
4、外语水平符合拟留学单位的语言要求或达到以下条件之一:
(一)外语专业本科(含)以上毕业(专业语种应与留学目的国使用语种一致)。
(二)曾在同一语种国家留学一学年(8-12个月)或连续工作一年(含)以上。
(三)参加“全国外语水平考试”(WSK)并达到合格标准。
(四)曾在教育部指定出国留学培训部参加相关语种培训并获得结业证书(英语为高级班,其他语种为中级班)。
(五)参加雅思(学术类)、托福、德、法、意、西、日、韩语水平考试,成绩达到以下标准:
雅思6.5分,托福95分,德、法、意、西语达到欧洲统一语言参考框架(CECRL)的B2级,日语达到二级(N2),韩语达到TOPIK4级。
5、申请时应为国内高校全日制优秀在读博士研究生(委托培养和定向生除外)。申请时应已获拟留学单位出具的正式邀请信及国内外导师共同制定的联合培养计划。
6、选派范围不包括:已获得博士学位人员;已获得国家留学基金资助尚在有效期内的人员;曾享受国家留学基金资助出国留学的人员(本科、硕士期间派出者除外);曾享受国家留学基金资助出国留学的违约人员;已获得国外全额奖学金资助的人员;已取得国外永久居留权的人员。
第四章 选拔办法
1、选派办法
学校遵循“公正、公平、公开”的原则,采取“个人申请,导师推荐,择优申报”的方式进行选拔,并向国家留学基金委推荐;留学基金委组织专家评审并确定拟选派人员名单,经教育部审核批准后予以公布。
国家公派研究生项目主要依托高校及博士生导师与国外高水平教育机构合作渠道选派,同时应充分利用教育部/留学基金委现有与国外教育/科研机构合作项目(详细情况请登录国家留学基金管理委员会网站查询)渠道派出。留学院校和外方指导教师主要由申请学生自己联系,学校相关部门、相关学院及申请学生的导师要积极协助申请学生落实留学院校和外方指导教师。
2、申请受理方式
我校学生申报的受理机构即为本校,具体负责部分为研究生培养办和国际合作交流处。
3、申请材料
请按照《关于准备202_年国家留学基金资助出国留学申请材料的说明(学生类申请人用)》准备书面申请材料。
五、工作进度安排
(1)向国家留学基金委网上申报时间:202_年3月1日-3月20日;(2)向国家留学基金委报送纸质材料实践:202_年3月27日;(3)选派类型:联合培养博士研究生;(4)时间安排:
①202_年11月28日-202_年2月10日:本人申请、导师推荐、学院初选,申请人填写《合肥工业大学国家公派研究生项目申请表》,申请人将填写完整的申请表交到研究生培养办公室;
②交表地点:行政二号楼211,袁老师,电话2901225;
③202_年2月10日-2月底:研究生培养办会同人事处组织有关能力测试,具体内容根据实际情况确定;
④202_年3月20日前:学校相关部门、相关学院及申请学生的导师协助申报学生落实留学院校和外方指导教师;
⑤202_年3月1日-3月20日:组织申报学生网上报名,审核网上报名信息,收取、审核书面申请材料;
⑥202_年3月27日:向向留学基金委报送书面申请材料;
⑦202_年4月:留学基金委组织专家评审,确定拟录取人员名单,呈报教育部审批; ⑧202_年5月:确定并公布录取人员名单;
⑨202_年7月起:学校组织行前集训,被录取人员陆续派出。
六、派出与管理
1、国家公派研究生项目的管理实行签约派出,违约赔偿的办法,具体办法按照《国家公派出国留学研究生管理规定》执行。
2、留学人员派出前须与留学基金委签订《资助出国留学协议书》,并办理公正、交存保证金和《国际旅行健康证明书》,由教育部留学服务中心审核后再予办理签证、预订机票等派出手续。派出后应遵守留学基金委资助出国留学人员的有关规定及《资助出国留学协议书》的有关约定。留学期间,留学人员应自觉接受驻外使(领)官教育处(组)的管理,具体按照《国家公派出国留学研究生管理规定(试行)》执行。
3、学校研究生培养办和国际合作交流处具体负责留学人员的管理与派出工作。
七、鼓励政策
公派留学生可与学校签订学成回校工作的意向书,学校在选留应届毕业生进入教师队伍时,优先考虑公派留学生。
公派领导与管理小组 202_年11月28日
第四篇:合肥工业大学研究生考试
▲080201
机械制造及
其自动化01.机械制造计算机综合自动化50陈心昭、刘光复、赵
韩
桂贵生、刘正士、陈剑
胡献国、刘焜、李志远王卫荣、李旗号、刘志峰周美立、韩春明、董玉革林巨广、韩江、胡小春吕新生、张利、陈科董玉德、谢峰、李学京刘明周、朱家诚、黄康沈健、解挺、王健强朱华炳、剑建卫、焦明华教授
毕传兴、尹延国研究员
尹志强、高荣慧、王晓枫曹文钢、夏链、黄皖苏郑红梅、吴焱明、刘小君陈远龙、田杰、丁曙光王纯贤、朱政红、陈晓东曾忆山、江擒虎、杨沁宋守许、王淑旺
王勇(1)、王勇(2)
张晔、翟华、任永强
屈新怀、刘炀副教授1.政治
2.英或日
3.数学
(一)4.机械原理
各方向也可选考控制理论与控制工程、计算机应用技术、检测技术与自动化装置、材料加工
工程专业的专业课(但必须选考数学
(一)),复试相应专业的专业课《机械原理》,东南大学郑文纬、吴克坚编,高等教育出版社,1997年7月第七版。
02.先进制造系统及其关键技术(网络制造、智能制造、虚拟制造等)
03.CAD/CAPP/CAM/CNC04.先进制造工艺(特种加工、精密加工、快速成型等)05.动态测量技术及智能仪表06.机械故障诊断
07.汽车NVH技术与工程应用
▲080202
机械电子工
程01.计算机集成制造系统65同机械制造及其自动化专业同机械制造及其自动化专业同机械制造及其自动化专业
02.机电产品绿色设计与制造
03.机电控制与自动化
04.数控技术与数控系统
05.流体传动及控制
▲080203
机械设计及
理论01.现代设计理论及技术35同机械制造及其自动化专业同机械制造及其自动化专业同机械制造及其自动化专业
02.数字化设计
03.机器人及自动化机械机构学
04.摩擦学及摩擦学设计
05.CAT技术
06.机械动态性能与低噪声设计
07.汽车NVH中的理论方法
第五篇:研究生联合培养实践四方协议书
研究生联合培养(实践)四方协议书
甲方:东莞市名校研究生培育发展中心
乙方(高校/院系/研究生院):
丙方(实践单位):
丁方(研究生):
为了进一步促进东莞产业转型、结构升级和提升创新竞争力,推进东莞名校研究生培养(实践)基地的建设工作,甲、乙、丙、丁四方经友好协商,本着优势互补、共同发展的原则,根据《202_年东莞市名校研究生院筹建工作方案》要求,就开展全日制研究生联合培养(实践)合作的相关事宜,达成以下协议书,以兹共同信守。
一、协议时间:
合同期限为个月,自从年月日至年月日止;合同期满,协议自然终止。二、四方权利与义务:
(一)甲方:
1、负责协调丁方进入丙方场所内联合培养实践的安排工作。
2、在联合培养实践期间向丁方发放补助资金,具体发放金额、时间及方式以《东莞市名校研究生培养(实践)基地研究生补助资金管理实施细则(试行)》等政府实施政策为准,补助资金自符合补助条件之日起计算,若丁方在联合培养实践期间中途离开则终止补贴发放。
3、为丁方人员代表提供免费住宿条件。
3、负责丁方在实践期的考核,确保联合培养实践质量,实践结束后,应对丁方的联合培养实践表现做出客观评定。
4、需提供符合安全生产条件的联合培养实践场地,包括生产、研发或办公的场地及劳动保护条件,必须保证丁方在人身安全不受危害的环境条件下工作。
5、联合培养实践期间,不得安排与联合培养实践无关的事情,不能无故终止联合培养实践。
6、每月按时足额向丁方支付实践劳动报酬。
7、从联合培养实践之日起为丁方购买二十万额度的联合培养实践期间人身意外保险,如丁方在联合培养实践期间发生意外事故,应及时为丁方办理保险理赔手续。
(四)丁方:
1、严格遵守甲乙双方的相关规章制度,服从管理。如有严重违法乱纪或不服从相关规章制度管理等行为,经查证属实的将取消享受甲方给予的补助金资格。
2、应如实向甲方提供补助资金及交通费用报销的申报材料,并对申报材料的真实性和准确性负责。
3、在实践期间,了解、接触到任何有关甲方、乙方、丙方的知识产权信息以及产品(服务)、专有技术、人事信息、经营信息等商业秘密均负有保密义务,不得向任何个人、公司或团体透露,不得以任何形式进行复制、传输、保存。如违反上述保密义务造成损失的,丁方应承担相应赔偿责任。
4、在实践结束之前,应及时移交工作资料、工具及其他介质。未
(四)本合作协议书以中文书就。一式肆份,经甲、乙、丙、丁四方签字盖章后生效,甲、乙、丙、丁方各执壹份,均具有同等效力。
甲方:
授权代表人:
丙方:
授权代表人:
(盖章)
月
日(盖章)
月
日 乙方:
授权代表人:
丁方:
授权代表人:
(盖章)
月
日
(盖章)
月
日
年
年
年 年