前言
第1章 智能語音處理導論1
11 概述1
12 經典語音處理2
121 語音處理的發(fā)展2
122 語音基本表示方法3
123 語音處理基本方法3
124 經典語音處理方法的不足4
13 智能語音處理5
131 智能語音處理的基本概念5
132 智能語音處理的基本框架5
133 智能語音處理的基本模型6
14 語音處理的應用7
141 語音處理的傳統應用領域8
142 語音處理的新應用領域11
15 小結14
參考文獻14
第2章 稀疏和壓縮感知15
21 引言15
22 稀疏和稀疏表示16
221 稀疏16
222 稀疏表示18
23 冗余字典19
231 基本概念19
232 字典學習20
233 字典學習算法22
234 原子選擇算法25
24 壓縮感知27
241 基本概念27
242 壓縮感知模型29
243 觀測矩陣30
244 信號重構32
25 小結33
參考文獻33
第3章 隱變量模型36
31 引言36
32 高斯混合模型36
321 基本概念37
322 GMM參數估計37
33 隱馬爾可夫模型39
331 基本概念39
332 HMM關鍵問題42
34 高斯過程隱變量模型48
341 基本模型48
342 GPLVM的理論來源49
343 GPLVM模型訓練50
35 小結51
參考文獻51
第4章 組合模型52
41 引言52
42 主成分分析53
421 基本模型53
422 求解算法54
43 非負矩陣分解56
431 基本模型56
432 求解算法57
433 NMF與其他數據表示模型的關系58
44 魯棒組合模型60
441 組合模型的魯棒性分析61
442 魯棒主成分分析61
443 魯棒非負矩陣分解63
45 小結64
參考文獻64
第5章 人工神經網絡和深度學習65
51 引言65
52 神經網絡基礎66
521 神經元模型66
522 淺層神經網絡67
523 深度神經網絡68
53 深度學習69
531 基本概念和形式69
532 深度網絡的學習方法70
54 深度神經網絡的典型結構71
541 深度置信網絡71
542 自動編碼器與棧式自動編碼器72
543 卷積神經網絡74
544 循環(huán)神經網絡75
545 生成式對抗網絡77
55 小結79
參考文獻79
第6章 語音壓縮編碼81
61 引言81
62 基于字典學習的語音信號壓縮感知82
621 語音信號的稀疏性82
622 語音在常見變換域的稀疏化83
623 基于K-L展開的語音非相干字典84
624 基于K-L非相干字典的語音壓縮重構87
625 實驗仿真與性能分析88
63 基于梅爾倒譜系數重構的語音壓縮編碼93
631 基于梅爾倒譜分析的抗噪語音編碼模型94
632 基于稀疏約束的梅爾倒譜合成96
633 梅爾倒譜系數的量化算法99
634 實驗仿真與性能分析103
64 基于深度學習的語音壓縮編碼107
641 基于DAE的幅度譜編碼和量化107
642 基于DAE的低速率語音編碼110
643 實驗仿真與性能分析111
65 小結113
參考文獻113
第7章 語音增強115
71 引言115
72 語音增強技術基礎116
721 語音增強的估計參數116
722 智能語音增強的語音特征117
723 性能評價118
73 基于非負矩陣分解的語音增強120
731 基本模型121
732 基于不相交約束非負矩陣分解的語音增強122
733 基于CNMF字典學習的語音增強127
74 基于深度學習的語音增強136
741 基于聽覺感知加權的深度神經網絡語音增強方法136
742 基于聽覺感知掩蔽的深度神經網絡語音增強方法141
75 小結151
參考文獻152
第8章 語音轉換155
81 引言155
82 語音轉換基本原理155
83 語音轉換模型與評價156
831 語音分析/合成模型156
832 語音參數的選擇157
833 時間對齊157
834 轉換模型和規(guī)則158
835 轉換性能評價159
84 基于非負矩陣分解的譜轉換160
841 概述160
842 基于卷積非負矩陣分解的譜轉換161
843 聲道譜轉換效果164
85 基于深度神經網絡的譜轉換168
851 深度學習驅動下的語音轉換168
852 面向譜轉換的神經網絡模型選擇168
853 基于BLSTM和神經網絡聲碼器交替訓練的語音轉換171
86 小結176
參考文獻176
第9章 說話人識別178
91 引言178
92 說話人識別基礎179
921 說話人識別系統框架179
922 典型的說話人識別模型180
93 基于i-vector的說話人識別及其改進181
931 基于i-vector的說話人識別概述181
932 用于提高i-vector魯棒性的幀加權方法182
933 實驗結果與分析187
94 基于深度神經網絡的說話人識別187
941 基于深度神經網絡的說話人識別概述187
942 基于對比度損失函數優(yōu)化說話人矢量189
943 實驗結果與分析191
95 說話人識別系統的攻擊與防御192
951 攻擊和防御的背景192
952 說話人識別系統的攻擊方法192
953 說話人識別攻擊的檢測方法194
954 實驗結果與分析196
96 小結196
參考文獻197
第10章 骨導語音增強200
101 引言200
102 骨導語音增強基礎201
1021 骨導語音的產生與特性201
1022 骨導語音盲增強的特點202
1023 骨導語音盲增強的典型方法203
103 基于長短時記憶網絡的骨導語音盲增強205
1031 骨導/氣導語音的譜映射206
1032 基于深度殘差BLSTM的骨導語音盲增強方法207
1033 實驗仿真及性能分析211
104 基于均衡-生成組合譜映射的骨導語音盲增強215
1041 均衡法215
1042 基于均衡-生成組合譜映射的骨導語音盲增強方法216
1043 實驗仿真及性能分析218
105 小結222
參考文獻223
第11章 智能語音處理展望224
111 智能語音處理的未來224
112 有待解決的關鍵技術225
1121 語音識別226
1122 語音合成228
1123 語音增強229
1124 語音處理中的安全問題230
113 小結230
參考文獻230
縮略語232