發表於2024-12-22
AlphaGo與李世石的圍棋大戰激發瞭人們對人工智能是非的諸多爭論。人工智能背後的工作原理深度學習跳入大眾的視野。AlphaGo的大獲全勝一定程度展示瞭深度學習在應用領域的成功,而語音識彆正是深度學習取得顯著成功的應用領域之一。
本書是首次以深度學習為主綫介紹語音識彆應用的書籍,對讀者瞭解語音識彆技術及其發展曆程有重要的參考價值。
本書作者俞棟、鄧力均是該領域的著名專傢,他們是深度學習在應用領域取得突破性進展的推動者與實踐者,他們在書中分享的研究成果一定程度上代錶瞭本領域全新的研究進展;譯者俞凱、錢彥 旻也是本領域的資深專傢,並有眾多實踐成果。 對於從事此領域研究的讀者來說,本書無疑有重要的參考價值。
《解析深度學習:語音識彆實踐》是首部介紹語音識彆中深度學習技術細節的專著。全書首先概要介紹瞭傳統語音識彆理論和經典的深度神經網絡核心算法。接著全麵而深入地介紹瞭深度學習在語音識彆中的應用,包括“深度神經網絡-隱馬爾可夫混閤模型”的訓練和優化,特徵錶示學習、模型融閤、自適應,以及以循環神經網絡為代錶的若乾先進深度學習技術。
《解析深度學習:語音識彆實踐》適閤有一定機器學習或語音識彆基礎的學生、研究者或從業者閱讀,所有的算法及技術細節都提供瞭詳盡的參考文獻,給齣瞭深度學習在語音識彆中應用的全景。
俞棟
1998 年加入微軟公司,現任微軟研究院首席研究員、浙江大學兼職教授和中科大客座教授。他是語音識彆和深度學習方嚮的資深專傢,齣版瞭兩本專著,發錶瞭150 多篇論文,是近60 項專利的發明人及有廣泛影響力的深度學習開源軟件CNTK 的發起人和主要作者之一。他在基於深度學習的語音識彆技術上的工作帶來瞭語音識彆研究方嚮的轉變,極大地推動瞭語音識彆領域的發展,並獲得2013 年IEEE 信號處理協會佳論文奬。俞棟博士現擔任IEEE 語音語言處理專業委員會委員,曾擔任IEEE/ACM音頻、語音及語言處理匯刊、IEEE 信號處理雜誌等期刊的編委。
鄧力
世界著名人工智能、機器學習和語音語言信號處理專傢,現任微軟首席人工智能科學傢和深度學習技術中心研究經理。他在美國威斯康星大學先後獲碩士和博士學位,然後在加拿大滑鐵盧大學任教獲得終身正教授。其間,他還任麻省理工學院研究職位。1999 年加入微軟研究院曆任數職,並在2014 年初創辦深度學習技術中心,主持微軟公司和研究院的人工智能和深度學習領域的技術創新。 鄧立博士的研究方嚮包括自動語音與說話者識彆、口語識彆與理解、語音–語音翻譯、機器翻譯、語言模式、統計方法與機器學習、聽覺和其他生物信息處理、深層結構學習、類腦機器智能、圖像語言多模態深度學習,商業大數據深度分析等。他在上述領域做齣瞭重大貢獻,是ASA(美國聲學學會)會士、IEEE(美國電氣和電子工程師協會)會士和理事、ISCA(國際語音通信協會)會士,並憑藉在深度學習與自動語音識彆方嚮做齣的傑齣貢獻榮獲2015年度IEEE 信號處理技術成就奬。同時,他也曾在高端雜誌和會議上發錶過與上述領域相關的300 餘篇學術論文,齣版過5 部著作,發明及閤作發明瞭超過70 多項專利。鄧立博士還擔任過IEEE 信號處理雜誌和《音頻、語音與語言處理學報》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主編。
俞凱
IEEE 高級會員,上海交通大學計算機科學與工程係特彆研究員。清華大學本科、碩士,英國劍橋大學工程係博士。長期從事智能語音及語言處理、人機交互、模式識彆及機器學習的研究和産業化工作。他是中組部“韆人計劃”(青年項目)獲得者,國傢自然科學基金委優秀青年科學基金獲得者,上海市“東方學者”特聘教授;作為共同創始人和首席科學傢創立“蘇州思必馳信息科技有限公司”。現任中國聲學學會語音語言、聽覺及音樂分會執委會委員,中國計算機學會人機交互專委會委員,中國語音産業聯盟技術工作組副組長。他的研究興趣涉及語音識彆、語音閤成、口語理解、對話係統、認知型人機交互等智能語音語言處理技術的多個核心技術領域,在本領域的一流國際期刊和會議上發錶論文80 餘篇,申請專利10 餘項,取得瞭一係列研究、工程和産業化成果。在InterSpeech 及IEEE Spoken Language Processing 等國際會議上獲得3 篇國際會議優秀論文奬,獲得國際語音通信聯盟(ISCA)2013 年頒發的2008—2012 Computer Speech and Language 優論文奬。受邀擔任InterSpeech 2009 語音識彆領域主席、EUSIPCO 2011/EUSIPCO 2014 語音處理領域主席、InterSpeech 2014 口語對話係統領域主席等。他負責搭建或參與搭建的大規模連續語音識彆係統,曾獲得美國國傢標準局(NIST)和美國國防部內部評測冠軍;作為核心技術人員,負責設計並實現的認知型統計對話係統原型,在CMU 組織的2010 年對話係統國際挑戰賽上獲得瞭可控測試的冠軍。作為項目負責人或Co-PI,他主持瞭歐盟第7 框架PARLANCE、國傢自然科學基金委、上海市教委、經信委,以及美國通用公司、蘇州思必馳信息科技有限公司的一係列科研及産業化項目。2014 年,因在智能語音技術産業化方麵的貢獻,獲得中國人工智能學會頒發的“吳文俊人工智能科學技術奬”。
錢彥旻
上海交通大學計算機科學與工程係助理研究員,博士。分彆在2007 年6 月和2013 年1 月於華中科技大學和清華大學獲得工學學士和工學博士學位。2013 年4 月起,任上海交通大學計算機科與工程係理研究員。同時從2015 年1 月至2015 年12 月,在英國劍橋大學工程係機器智能實驗室語音組進行訪問,作為項目研究員與語音識彆領域的著名科學傢Phil Woodland 教授和Mark Gales 教授開展閤作研究。現為IEEE、ISCA 會員,同時也是國際開源項目Kaldi 語音識彆工具包開發的項目組創始成員之一。此外,擔任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等國際期刊和會議的審稿人。目前在國內外學術刊物和會議上發錶學術論文50 餘篇,Google Scholar 總引用數近1000 次。其中包括在語音識彆領域優秀國際會議ICASSP、InterSpeech 和ASRU 上發錶論文30 餘篇,申請國傢專利共3 項,已授權1 項。2008 年獲科技奧運先進集體奬,2014 年獲中國人工智能學會頒發的“吳文俊人工智能科學技術奬進步奬”。曾作為負責人和主要參與者參加瞭包括英國EPSRC、國傢自然科學基金、國傢863 等多個項目。目前的研究領域包括:語音識彆、說話人和語種識彆、自然語言理解、深度學習建模、多媒體信號處理等。
作者及譯者簡介iv
譯者序vii
序ix
前言xi
術語縮寫xxiii
符號xxvii
1 簡介1
1.1 自動語音識彆:更好的溝通之橋 1
1.1.1 人類之間的交流 2
1.1.2 人機交流 2
1.2 語音識彆係統的基本結構 4
1.3 全書結構 6
1.3.1 第一部分:傳統聲學模型6
1.3.2 第二部分:深度神經網絡6
1.3.3 第三部分:語音識彆中的DNN-HMM 混閤係統7
1.3.4 第四部分:深度神經網絡中的特徵錶示學習 7
1.3.5 第五部分:高級的深度模型 7
第一部分傳統聲學模型9
2 混閤高斯模型10
2.1 隨機變量10
2.2 高斯分布和混閤高斯隨機變量11
2.3 參數估計13
2.4 采用混閤高斯分布對語音特徵建模 15
3 隱馬爾可夫模型及其變體17
3.1 介紹17
3.2 馬爾可夫鏈19
3.3 序列與模型 20
3.3.1 隱馬爾可夫模型的性質21
3.3.2 隱馬爾可夫模型的仿真22
3.3.3 隱馬爾可夫模型似然度的計算22
3.3.4 計算似然度的高效算法24
3.3.5 前嚮與後嚮遞歸式的證明25
3.4 期望zui大化算法及其在學習HMM 參數中的應用 26
3.4.1 期望zui大化算法介紹 26
3.4.2 使用EM 算法來學習HMM 參數——Baum-Welch 算法 28
3.5 用於解碼HMM 狀態序列的維特比算法32
3.5.1 動態規劃和維特比算法32
3.5.2 用於解碼HMM 狀態的動態規劃算法33
3.6 隱馬爾可夫模型和生成語音識彆模型的變體35
3.6.1 用於語音識彆的GMM-HMM 模型 36
3.6.2 基於軌跡和隱藏動態模型的語音建模和識彆37
3.6.3 使用生成模型HMM 及其變體解決語音識彆問題 38
第二部分深度神經網絡41
4 深度神經網絡42
4.1 深度神經網絡框架42
4.2 使用誤差反嚮傳播來進行參數訓練 45
4.2.1 訓練準則 45
4.2.2 訓練算法46
4.3 實際應用50
4.3.1 數據預處理51
4.3.2 模型初始化52
4.3.3 權重衰減52
4.3.4 丟棄法 53
4.3.5 批量塊大小的選擇55
4.3.6 取樣隨機化56
4.3.7 慣性係數 57
4.3.8 學習率和停止準則58
4.3.9 網絡結構59
4.3.10 可復現性與可重啓性 59
5 高級模型初始化技術61
5.1 受限玻爾茲曼機61
5.1.1 受限玻爾茲曼機的屬性63
5.1.2 受限玻爾茲曼機參數學習66
5.2 深度置信網絡預訓練 69
5.3 降噪自動編碼器預訓練71
5.4 鑒彆性預訓練74
5.5 混閤預訓練75
5.6 采用丟棄法的預訓練 75
第三部分語音識彆中的深度神經網絡–隱馬爾可夫混閤模型77
6 深度神經網絡–隱馬爾可夫模型混閤係統78
6.1 DNN-HMM 混閤係統 78
6.1.1 結構78
6.1.2 用CD-DNN-HMM 解碼80
6.1.3 CD-DNN-HMM 訓練過程81
6.1.4 上下文窗口的影響83
6.2 CD-DNN-HMM 的關鍵模塊及分析 85
6.2.1 進行比較和分析的數據集和實驗85
6.2.2 對單音素或者三音素的狀態進行建模 87
6.2.3 越深越好88
6.2.4 利用相鄰的語音幀89
6.2.5 預訓練 90
6.2.6 訓練數據的標注質量的影響 90
6.2.7 調整轉移概率 91
6.3 基於KL 距離的隱馬爾可夫模型91
7 訓練和解碼的加速93
7.1 訓練加速93
7.1.1 使用多GPU 流水綫反嚮傳播94
7.1.2 異步隨機梯度下降97
7.1.3 增廣拉格朗日算法及乘子方嚮交替算法100
7.1.4 減小模型規模 101
7.1.5 其他方法102
7.2 加速解碼103
7.2.1 並行計算103
7.2.2 稀疏網絡105
7.2.3 低秩近似107
7.2.4 用大尺寸DNN 訓練小尺寸DNN108
7.2.5 多幀DNN 109
8 深度神經網絡序列鑒彆性訓練111
8.1 序列鑒彆性訓練準則 111
8.1.1 zui大相互信息 112
8.1.2 增強型MMI 113
8.1.3 zui小音素錯誤/狀態級zui小貝葉斯風險114
8.1.4 統一的公式115
8.2 具體實現中的考量116
8.2.1 詞圖産生116
8.2.2 詞圖補償117
8.2.3 幀平滑 119
8.2.4 學習率調整119
8.2.5 訓練準則選擇 120
8.2.6 其他考量120
8.3 噪聲對比估計 121
8.3.1 將概率密度估計問題轉換為二分類設計問題121
8.3.2 拓展到未歸一化的模型123
8.3.3 在深度學習網絡訓練中應用噪聲對比估計算法 124
第四部分深度神經網絡中的特徵錶示學習127
9 深度神經網絡中的特徵錶示學習128
9.1 特徵和分類器的聯閤學習128
9.2 特徵層級129
9.3 使用隨意輸入特徵的靈活性 133
9.4 特徵的魯棒性 134
9.4.1 對說話人變化的魯棒性134
9.4.2 對環境變化的魯棒性 135
9.5 對環境的魯棒性137
9.5.1 對噪聲的魯棒性138
9.5.2 對語速變化的魯棒性 140
9.6 缺乏嚴重信號失真情況下的推廣能力141
10 深度神經網絡和混閤高斯模型的融閤144
10.1 在GMM-HMM 係統中使用由DNN 衍生的特徵144
10.1.1 使用Tandem 和瓶頸特徵的GMM-HMM 模型144
10.1.2 DNN-HMM 混閤係統與采用深度特徵的GMM-HMM 係統的比較147
10.2 識彆結果融閤技術149
10.2.1 識彆錯誤票選降低技術(ROVER) 149
10.2.2 分段條件隨機場(SCARF) 151
10.2.3 zui小貝葉斯風險詞圖融閤153
10.3 幀級彆的聲學分數融閤153
10.4 多流語音識彆 154
11 深度神經網絡的自適應技術157
11.1 深度神經網絡中的自適應問題157
11.2 綫性變換159
11.2.1 綫性輸入網絡.159
11.2.2 綫性輸齣網絡 159
11.3 綫性隱層網絡 161
11.4 保守訓練162
11.4.1 L2 正則項163
11.4.2 KL 距離正則項163
11.4.3 減少每個說話人的模型開銷 165
11.5 子空間方法167
11.5.1 通過主成分分析構建子空間 167
11.5.2 噪聲感知、說話人感知及設備感知訓練168
11.5.3 張量172
11.6 DNN 說話人自適應的效果172
11.6.1 基於KL 距離的正則化方法 173
11.6.2 說話人感知訓練174
第五部分先進的深度學習模型177
12 深度神經網絡中的錶徵共享和遷移178
12.1 多任務和遷移學習178
12.1.1 多任務學習 178
12.1.2 遷移學習180
12.2 多語言和跨語言語音識彆180
12.2.1 基於Tandem 或瓶頸特徵的跨語言語音識彆181
12.2.2 共享隱層的多語言深度神經網絡182
12.2.3 跨語言模型遷移185
12.3 語音識彆中深度神經網絡的多目標學習188
12.3.1 使用多任務學習的魯棒語音識彆188
12.3.2 使用多任務學習改善音素識彆189
12.3.3 同時識彆音素和字素(graphemes) 190
12.4 使用視聽信息的魯棒語音識彆 190
13 循環神經網絡及相關模型192
13.1 介紹192
13.2 基本循環神經網絡中的狀態-空間公式194
13.3 沿時反嚮傳播學習算法195
13.3.1 zui小化目標函數 196
13.3.2 誤差項的遞歸計算196
13.3.3 循環神經網絡權重的更新197
13.4 一種用於學習循環神經網絡的原始對偶技術199
13.4.1 循環神經網絡學習的難點199
13.4.2 迴聲狀態(Echo-State)性質及其充分條件 199
13.4.3 將循環神經網絡的學習轉化為帶約束的優化問題 200
13.4.4 一種用於學習RNN 的原始對偶方法201
13.5 結閤長短時記憶單元(LSTM)的循環神經網絡203
13.5.1 動機與應用203
13.5.2 長短時記憶單元的神經元架構204
13.5.3 LSTM-RNN 的訓練205
13.6 循環神經網絡的對比分析205
13.6.1 信息流方嚮的對比:自上而下還是自下而上 206
13.6.2 信息錶徵的對比:集中式還是分布式208
13.6.3 解釋能力的對比:隱含層推斷還是端到端學習209
13.6.4 參數化方式的對比:吝嗇參數集閤還是大規模參數矩陣 209
13.6.5 模型學習方法的對比:變分推理還是梯度下降210
13.6.6 識彆正確率的比較211
13.7 討論212
14 計算型網絡214
14.1 計算型網絡214
14.2 前嚮計算215
14.3 模型訓練 218
14.4 典型的計算節點222
14.4.1 無操作數的計算節點 223
14.4.2 含一個操作數的計算節點223
14.4.3 含兩個操作數的計算節點228
14.4.4 用來計算統計量的計算節點類型235
14.5 捲積神經網絡 236
14.6 循環連接 239
14.6.1 隻在循環中一個接一個地處理樣本240
14.6.2 同時處理多個句子242
14.6.3 創建任意的循環神經網絡243
15 總結及未來研究方嚮245
15.1 路綫圖 245
15.1.1 語音識彆中的深度神經網絡啓濛245
15.1.2 深度神經網絡訓練和解碼加速248
15.1.3 序列鑒彆性訓練248
15.1.4 特徵處理249
15.1.5 自適應 250
15.1.6 多任務和遷移學習251
15.1.7 捲積神經網絡 251
15.1.8 循環神經網絡和長短時記憶神經網絡251
15.1.9 其他深度模型 252
15.2 技術前沿和未來方嚮 252
15.2.1 技術前沿簡析252
15.2.2 未來方嚮253
參考文獻255?????? 解析深度學習:語音識彆實踐 下載 mobi epub pdf txt 電子書 格式
解析深度學習:語音識彆實踐 下載 mobi pdf epub txt 電子書 格式 2024
解析深度學習:語音識彆實踐 下載 mobi epub pdf 電子書初步入門tensorflow,深度學習,希望能有所收獲,藉此打開深度學習大門
評分挺不錯,也是很厚,但是也會激發瞭解這個行業的興趣
評分買一本,拓展下視野,還沒開始看。
評分第5章講述瞭JavaScript的曆史、Node.js的原理、程序的鏈接、命令式和聲明式編程的區彆,以及作者十多年來使用各種編程語言的感受;
評分 評分計算機經典圖書,618活動買的,價格實惠,打摺下來真的很便宜,又屯瞭一大堆書
評分講的 故事 很有發揮。 有些點還是不太好理解。
評分深度學習tensorflow框架入門最佳書籍,必須人手一本。第二版將代碼更新到tf1.4添加瞭許多新特性,比如tf.data介紹。
評分非常新的技術書籍,正版。非常喜歡瞭?? (?? ‾??‾? )?? ??
解析深度學習:語音識彆實踐 mobi epub pdf txt 電子書 格式下載 2024