汉语基元音素独立分量谱分析对比及语音合成研究

基元独立分量论文 LPC声道谱包络论文 Wigner-Ville谱包络论文 共振峰加窗论文 基元合成
论文详情
语音合成技术是实现人机语音交互通信的关键技术之一,它希望计算机具备像人一样的说话能力。能灵活调整合成单元的音段参数和超音段参数,同时确保合成语音的高自然度是目前面临的一个主要问题。独立分量分析方法区别于传统的DFT、小波变换等分析方法,论文利用独立分量分析方法的优势,提取基元独立分量,分析其声学特征并结合语音合成展开探索性研究。论文应用独立分量分析方法,研究汉语发音基元时域和频域独立分量信号可区分的声学特征,结合基元生物发声机理讨论各独立分量的含义;对比分析基元独立分量传统短时FFT谱包络与LPC声道谱包络、高阶Wigner-Ville谱包络声学特性,研究分析在基元合成实验中的合成效果;通过基频曲线调整合成基元调域,对独立分量谱包络按共振峰特性加窗处理和调整各独立分量间混合权重来控制合成基元音色。论文的主要工作如下:1、论文使用独立分量分析方法,从时域提取各发音基元独立分量。对比分析了基元各时域独立分量间相关性大小、基频FO线、共振峰特性、F1-F2,F2-F3声学音位图等声学特征,发现基元各时域独立分量间可区分的特征。结合各发音基元的生物发声机理,声带的振动频率与基频对应,元音发音时舌位的高低与第一共振峰频率F1对应,舌位的前后与第二共振峰频率F2对应等,将基元各时域独立分量进行鉴别区分,赋予各独立分量确切的含义,如高基频分量,高舌位分量,前舌位分量等。频域ICA分析中,获取了基元频谱包络的独立分量。对比分析了蕴含在基元各频谱独立分量中的共振峰特性和F1-F2, F2-F3声学音位图,找出基元各频谱独立分量间可区分特征,将基元各频谱独立分量分别区分为高舌位谱分量,前舌位谱分量等。2、在时域ICA分析中,对同一发音基元各时域独立分量,提取了其传统短时FFT谱包络与LPC声道谱包络、高阶Wigner-Ville谱包络,对比分析了蕴含在三种频谱包络中的共振峰特性和谐波结构,发现三种频谱包络间的声学特征差别;对比分析了传统短时FFT谱包络与LPC声道谱包络、高阶Wigner-Ville谱包络在基元合成实验中的效果。实验环节,应用STRAIGHT合成算法,基于各基元独立分量的基频和三种不同的频谱包络,完成了各发音基元时域独立分量合成和时域独立分量混合合成实验。基于各基元三种不同频谱包络的谱独立分量,完成了基于谱独立分量的基元合成和基于谱独立分量混合的基元合成实验。实验结果表明,三种频谱包络有各自不同的声学表现,基元LPC声道谱包络表现出了较平缓的声道传输特性,共振峰结构较钝化,而WV谱包络拥有更加丰富的谐波特性,更尖锐的共振峰结构和更高的频率分辨率,信号的一些快速时变特征在WV谱包络上也有体现。从基元合成效果来看,WV谱合成基元清晰度可懂度较优,传统FFT谱合成效果次之。3、论文针对各发音基元时域独立分量的谱包络按第一、二共振峰特性进行加窗处理,获取不同的音色表现。将不同特性的独立分量按不同的权值加权组合产生出音色可调控的合成语音,通过基频曲线调整合成基元的调域音高和情感特征。论文实验总结得到了音色调整的规则1、规则2和规则3,用来调控合成语音的基频和频谱包络中共振峰特性。实验结果显示,谱包络的加窗处理对音色的调整可控制在一个较满意的范围内,没有出现合成语音清晰度可懂度急剧下降的情况。经加权混合处理后的合成基元效果比音色相对单纯的各独立分量合成基元信号有更丰富的表现力,但音色的调整处理基于独立分量进行,对合成音质的影响会更细腻一些。合成基元清晰度可懂度经MOS评测,时域独立分量基元合成平均得分在4.5,时域独立分量谱加窗基元合成平均得分在4.53,时域独立分量加权混合基元合成平均得分在4.8左右。基于谱独立分量的基元合成平均得分在4.45,基于谱独立分量混合的基元合成平均得分在4.6左右。
摘要第3-5页
Abstract第5-6页
一 绪论第9-23页
    1.1 语音合成研究背景第9-11页
        1.1.1 概述第9-10页
        1.1.2 语音合成的历史回顾第10-11页
    1.2 国内外语音合成研究第11-13页
    1.3 独立分量分析方法的应用背景及特点第13-15页
    1.4 论文的主要工作和结构第15-20页
    1.5 论文的主要创新点第20-23页
二 语音信号独立分量分析(SSICA)第23-28页
    2.1 语音信号独立分量分析第23页
    2.2 独立分量线性分解原理第23-26页
    2.3 FASTICA算法步骤第26-27页
    2.4 小结第27-28页
三 语音信号基频、谱包络分析方法第28-36页
    3.1 语音信号的基频分析第28-30页
    3.2 语音信号的谱包络分析第30-33页
        3.2.1 语音信号传统短时FFT谱第30页
        3.2.2 语音信号的LPC声道谱第30-32页
        3.2.3 语音信号的高阶Wigner-Ville谱第32-33页
    3.3 语音音色的个性化特征描述第33-34页
    3.4 语音信号的共振峰分析第34-35页
    3.5 小结第35-36页
四 语音合成实验平台第36-42页
    4.1 基元ICA实验分析及基元合成框架第36-37页
    4.2 基元的发声机理及线性产生模型第37-39页
    4.3 语音合成STRAIGHT算法第39-40页
    4.4 语音数据库构成第40-41页
    4.5 小结第41-42页
五 汉语合成基元时域独立分量谱分析及合成第42-78页
    5.1 基元时域线性独立分量的分离第42-44页
    5.2 基元独立分量信号间相关性分析第44-49页
    5.3 基元独立分量信号的共振峰分析第49-54页
    5.4 基元独立分量信号的基频FO分析第54-56页
    5.5 基元独立分量信号的谱包络分析第56-68页
        5.5.1 基元独立分量信号传统FFT频谱包络分析第56-60页
        5.5.2 基元独立分量信号的LPC声道谱分析第60-63页
        5.5.3 基元独立分量信号的高阶Wigner-Ville谱分析第63-68页
    5.6 基元独立分量信号的意义第68-69页
    5.7 基元独立分量合成实验及谱包络对比分析第69-71页
    5.8 基元独立分量信号的音色调整处理第71-74页
        5.8.1 基频调整控制合成语音音高第71-72页
        5.8.2 谱包络共振峰加窗处理第72-73页
        5.8.3 基元独立分量谱加窗合成实验第73-74页
    5.9 基于独立分量混合产生不同音色的合成语音第74-75页
    5.10 小结第75-78页
六 汉语合成基元频域谱独立分量分析及合成第78-96页
    6.1 基元传统短时FFT谱包络的独立分量分析第78-83页
        6.1.1 传统短时FFT谱包络独立分量分析第78页
        6.1.2 传统短时FFT谱独立分量实验结果及分析第78-83页
    6.2 基元LPC声道谱包络的独立分量分析第83-87页
        6.2.1 LPC声道谱包络独立分量分析第83页
        6.2.2 LPC声道谱独立分量实验结果及分析第83-87页
    6.3 基元高阶Wigner-Ville谱包络的独立分量分析第87-92页
        6.3.1 高阶Wigner-Ville谱包络独立分量分析第87-88页
        6.3.2 高阶Wigner-Ville谱独立分量实验结果及分析第88-92页
    6.4 基于谱包络独立分量的基元音素合成第92-94页
        6.4.1 基元谱独立分量的含义第92-93页
        6.4.2 基于谱独立分量的基元合成实验第93页
        6.4.3 基于谱独立分量混合的基元合成实验第93-94页
    6.5 小结第94-96页
七总结与展望第96-101页
    7.1 总结第96-99页
    7.2 展望第99-101页
参考文献第101-106页
致谢第106-107页
附录1:博士期间承担的研究项目和发表的学术论文第107-109页
附录2:基元/e/和/a/独立分量语谱图第109-124页
论文购买
论文编号ABS538193,这篇论文共124页
会员购买按0.30元/页下载,共需支付37.2
不是会员,注册会员
会员更优惠充值送钱
直接购买按0.5元/页下载,共需要支付62
只需这篇论文,无需注册!
直接网上支付,方便快捷!
相关论文

点击收藏 | 在线购卡 | 站内搜索 | 网站地图
版权所有 艾博士论文 Copyright(C) All Rights Reserved
版权申明:本文摘要目录由会员***投稿,艾博士论文编辑,如作者需要删除论文目录请通过QQ告知我们,承诺24小时内删除。
联系方式: QQ:277865656