發表於2024-12-18
NLP,讓人類與智能機器的交互不再遙遠;深度學習,讓語言解析不再是智能係統的瓶頸!
本書核心內容
NLP中的開源係統及其應用
中文分詞源碼解析
概率圖模型的理論與算法
使用概率圖模型進行序列標注
語料庫的介紹與建設
深度學習與NLP
NLP與認知理論
漢語的句法與語義的解析
本書是一本研究漢語自然語言處理方麵的基礎性、綜閤性書籍,涉及NLP的語言理論、算法和工程實踐的方方麵麵,內容繁雜。 本書包括NLP的語言理論部分、算法部分、案例部分,涉及漢語的發展曆史、傳統的句法理論、認知語言學理論。需要指齣的是,本書是迄今為止**本係統介紹認知語言學和算法設計相結閤的中文NLP書籍,並從認知語言學的視角重新認識和分析瞭NLP的句法和語義相結閤的數據結構。這也是本書的創新之處。 本書適用於所有想學習NLP的技術人員,包括各大人工智能實驗室、軟件學院等專業機構。
鄭捷,threedweb網站的負責人,研究方嚮是機器學習與自然語言處理。當前負責的核心産品是高精度自然語言認知係統的設計與研發,研發目標是高精度(識彆率為85%~95%)的統一架構的NLP認知係統,已經齣版專著《機器學習算法原理與編程實踐》,希望能與在NLP這方麵有興趣的讀者一起學習交流。
第1章 中文語言的機器處理 1
1.1 曆史迴顧 2
1.1.1 從科幻到現實 2
1.1.2 早期的探索 3
1.1.3 規則派還是統計派 3
1.1.4 從機器學習到認知
計算 5
1.2 現代自然語言係統簡介 6
1.2.1 NLP流程與開源框架 6
1.2.2 哈工大NLP平颱及其
演示環境 9
1.2.3 Stanford NLP團隊及其
演示環境 11
1.2.4 NLTK開發環境 13
1.3 整閤中文分詞模塊 16
1.3.1 安裝Ltp Python組件 17
1.3.2 使用Ltp 3.3進行中文
分詞 18
1.3.3 使用結巴分詞模塊 20
1.4 整閤詞性標注模塊 22
1.4.1 Ltp 3.3詞性標注 23
1.4.2 安裝StanfordNLP並
編寫Python接口類 24
1.4.3 執行Stanford詞性
標注 28
1.5 整閤命名實體識彆模塊 29
1.5.1 Ltp 3.3命名實體識彆 29
1.5.2 Stanford命名實體
識彆 30
1.6 整閤句法解析模塊 32
1.6.1 Ltp 3.3句法依存樹 33
1.6.2 Stanford Parser類 35
1.6.3 Stanford短語結構樹 36
1.6.4 Stanford依存句法樹 37
1.7 整閤語義角色標注模塊 38
1.8 結語 40
第2章 漢語語言學研究迴顧 42
2.1 文字符號的起源 42
2.1.1 從記事談起 43
2.1.2 古文字的形成 47
2.2 六書及其他 48
2.2.1 象形 48
2.2.2 指事 50
2.2.3 會意 51
2.2.4 形聲 53
2.2.5 轉注 54
2.2.6 假藉 55
2.3 字形的流變 56
2.3.1 筆與墨的形成與變革 56
2.3.2 隸變的方式 58
2.3.3 漢字的符號化與結構 61
2.4 漢語的發展 67
2.4.1 完整語義的基本
形式――句子 68
2.4.2 語言的初始形態與
文言文 71
2.4.3 白話文與復音詞 73
2.4.4 白話文與句法研究 78
2.5 三個平麵中的語義研究 80
2.5.1 詞匯與本體論 81
2.5.2 格語法及其框架 84
2.6 結語 86
第3章 詞匯與分詞技術 88
3.1 中文分詞 89
3.1.1 什麼是詞與分詞規範 90
3.1.2 兩種分詞標準 93
3.1.3 歧義、機械分詞、語言
模型 94
3.1.4 詞匯的構成與未登錄
詞 97
3.2 係統總體流程與詞典結構 98
3.2.1 概述 98
3.2.2 中文分詞流程 99
3.2.3 分詞詞典結構 103
3.2.4 命名實體的詞典
結構 105
3.2.5 詞典的存儲結構 108
3.3 算法部分源碼解析 111
3.3.1 係統配置 112
3.3.2 Main方法與例句 113
3.3.3 句子切分 113
3.3.4 分詞流程 117
3.3.5 一元詞網 118
3.3.6 二元詞圖 125
3.3.7 NShort算法原理 130
3.3.8 後處理規則集 136
3.3.9 命名實體識彆 137
3.3.10 細分階段與最短
路徑 140
3.4 結語 142
第4章 NLP中的概率圖模型 143
4.1 概率論迴顧 143
4.1.1 多元概率論的幾個
基本概念 144
4.1.2 貝葉斯與樸素貝葉斯
算法 146
4.1.3 文本分類 148
4.1.4 文本分類的實現 151
4.2 信息熵 154
4.2.1 信息量與信息熵 154
4.2.2 互信息、聯閤熵、
條件熵 156
4.2.3 交叉熵和KL散度 158
4.2.4 信息熵的NLP的
意義 159
4.3 NLP與概率圖模型 160
4.3.1 概率圖模型的幾個
基本問題 161
4.3.2 産生式模型和判彆式
模型 162
4.3.3 統計語言模型與NLP
算法設計 164
4.3.4 極大似然估計 167
4.4 隱馬爾科夫模型簡介 169
4.4.1 馬爾科夫鏈 169
4.4.2 隱馬爾科夫模型 170
4.4.3 HMMs的一個實例 171
4.4.4 Viterbi算法的實現 176
4.5 最大熵模型 179
4.5.1 從詞性標注談起 179
4.5.2 特徵和約束 181
4.5.3 最大熵原理 183
4.5.4 公式推導 185
4.5.5 對偶問題的極大似然
估計 186
4.5.6 GIS實現 188
4.6 條件隨機場模型 193
4.6.1 隨機場 193
4.6.2 無嚮圖的團(Clique)
與因子分解 194
4.6.3 綫性鏈條件隨機場 195
4.6.4 CRF的概率計算 198
4.6.5 CRF的參數學習 199
4.6.6 CRF預測標簽 200
4.7 結語 201
第5章 詞性、語塊與命名實體
識彆 202
5.1 漢語詞性標注 203
5.1.1 漢語的詞性 203
5.1.2 賓州樹庫的詞性標注
規範 205
5.1.3 stanfordNLP標注
詞性 210
5.1.4 訓練模型文件 213
5.2 語義組塊標注 219
5.2.1 語義組塊的種類 220
5.2.2 細說NP 221
5.2.3 細說VP 223
5.2.4 其他語義塊 227
5.2.5 語義塊的抽取 229
5.2.6 CRF的使用 232
5.3 命名實體識彆 240
5.3.1 命名實體 241
5.3.2 分詞架構與專名
詞典 243
5.3.3 算法的策略――詞典
與統計相結閤 245
5.3.4 算法的策略――層疊
式架構 252
5.4 結語 259
第6章 句法理論與自動分析 260
6.1 轉換生成語法 261
6.1.1 喬姆斯基的語言觀 261
6.1.2 短語結構文法 263
6.1.3 漢語句類 269
6.1.4 謂詞論元與空範疇 274
6.1.5 輕動詞分析理論 279
6.1.6 NLTK操作句法樹 280
6.2 依存句法理論 283
6.2.1 配價理論 283
6.2.2 配價詞典 285
6.2.3 依存理論概述 287
6.2.4 Ltp依存分析介紹 290
6.2.5 Stanford依存轉換、
解析 293
6.3 PCFG短語結構句法分析 298
6.3.1 PCFG短語結構 298
6.3.2 內嚮算法和外嚮
算法 301
6.3.3 Viterbi算法 303
6.3.4 參數估計 304
6.3.5 Stanford 的PCFG算法
訓練 305
6.4 結語 310
第7章 建設語言資源庫 311
7.1 語料庫概述 311
7.1.1 語料庫的簡史 312
7.1.2 語言資源庫的分類 314
7.1.3 語料庫的設計實例:
國傢語委語料庫 315
7.1.4 語料庫的層次加工 321
7.2 語法語料庫 323
7.2.1 中文分詞語料庫 323
7.2.2 中文分詞的測評 326
7.2.3 賓州大學CTB簡介 327
7.3 語義知識庫 333
7.3.1 知識庫與HowNet
簡介 333
7.3.2 發掘義原 334
7.3.3 語義角色 336
7.3.4 分類原則與事件
分類 344
7.3.5 實體分類 347
7.3.6 屬性與分類 352
7.3.7 相似度計算與實例 353
7.4 語義網與百科知識庫 360
7.4.1 語義網理論介紹 360
7.4.2 維基百科知識庫 364
7.4.3 DBpedia抽取原理 365
7.5 結語 368
第8章 語義與認知 370
8.1 迴顧現代語義學 371
8.1.1 語義三角論 371
8.1.2 語義場論 373
8.1.3 基於邏輯的語義學 376
8.2 認知語言學概述 377
8.2.1 象似性原理 379
8.2.2 順序象似性 380
8.2.3 距離象似性 380
8.2.4 重疊象似性 381
8.3 意象圖式的構成 383
8.3.1 主觀性與焦點 383
8.3.2 範疇化:概念的
認知 385
8.3.3 主體與背景 390
8.3.4 意象圖式 392
8.3.5 社交中的圖式 396
8.3.6 完形:壓縮與省略 398
8.4 隱喻與轉喻 401
8.4.1 隱喻的結構 402
8.4.2 隱喻的認知本質 403
8.4.3 隱喻計算的係統
架構 405
8.4.4 隱喻計算的實現 408
8.5 構式語法 412
8.5.1 構式的概念 413
8.5.2 句法與構式 415
8.5.3 構式知識庫 417
8.6 結語 420
第9章 NLP中的深度學習 422
9.1 神經網絡迴顧 422
9.1.1 神經網絡框架 423
9.1.2 梯度下降法推導 425
9.1.3 梯度下降法的實現 427
9.1.4 BP神經網絡介紹和
推導 430
9.2 Word2Vec簡介 433
9.2.1 詞嚮量及其錶達 434
9.2.2 Word2Vec的算法
原理 436
9.2.3 訓練詞嚮量 439
9.2.4 大規模上下位關係的
自動識彆 443
9.3 NLP與RNN 448
9.3.1 Simple-RNN 449
9.3.2 LSTM原理 454
9.3.3 LSTM的Python
實現 460
9.4 深度學習框架與應用 467
9.4.1 Keras框架介紹 467
9.4.2 Keras序列標注 471
9.4.3 依存句法的算法
原理 478
9.4.4 Stanford依存解析的
訓練過程 483
9.5 結語 488
第10章 語義計算的架構 490
10.1 句子的語義和語法預處理 490
10.1.1 長句切分和融閤 491
10.1.2 共指消解 496
10.2 語義角色 502
10.2.1 謂詞論元與語義
角色 502
10.2.2 PropBank簡介 505
10.2.3 CPB中的特殊
句式 506
10.2.4 名詞性謂詞的語義
角色 509
10.2.5 PropBank展開 512
10.3 句子的語義解析 517
10.3.1 語義依存 517
10.3.2 完整架構 524
10.3.3 實體關係抽取 527
10.4 結語 531
推薦序
自然語言處理是人工智能領域的一顆明珠,現在已經成為人工智能研究中最為活躍的領域。幾十年來,隨著計算機技術和人工智能技術的發展,自然語言處理取得瞭長足的進步。現在,自然語言處理技術正處在一個新的曆史轉摺點,隨著可獲取信息量的爆炸性增長,信息過載問題愈發嚴重,以詞法分析和詞義理解為主的傳統自然語言處理技術已經難以滿足解決實際問題的需要,句子級乃至篇章級語義理解技術即將成為人工智能技術發展的新趨勢。
自然語言處理作為人工智能與語言學的綜閤學科,理應從兩個學科中汲取營養來推動自身的進步。但目前概率和數據驅動的方法在自然語言處理領域占據絕對的主流,加之近幾年深度學習的異軍突起,語言學知識在自然語言處理領域中受到的重視程度愈發不足。而以我在自然語言處理領域工作的經驗來看,越深入研究,越能感覺到語言學知識不足的掣肘。特彆是深層次的語義理解,脫離瞭語言學知識,就會變成無源之水、無本之木。常見的自然語言處理書籍對於解決具體問題的方法講解已經足夠豐富,但對於語言學基礎理論的介紹和思考還略顯不足。一些前輩雖然一直在思考語言和認知的本質,但其發錶齣來的內容隻限於思考結果的一鱗半爪,較少結集成書。加之現在自然語言處理領域的學習者大多是計算機背景,極少係統地學習過語言學的基礎理論。這樣造成的現狀就是從事自然語言處理的技術人員越來越多,但相互之間的討論和經驗分享多集中於具體的技術手段或算法的數學原理,而極少涉及語言學的基礎理論和語義理解的本質問題。
本書作者通過對前人語言學理論和自然語言處理技術的深入梳理,形成瞭自己對於語義理解,特彆是漢語語義理解獨特的思考和一整套理論體係,提齣瞭語義理解的係統解決之道。盡管如何纔能讓計算機理解語義,在學術界還沒有定論,但作者係統性的思考和解決思路是非常難能可貴的。本書在內容上保證瞭理論和技術的平衡,在介紹術的同時,充分展示瞭作者對於道的思考成果。此書是自然語言處理書籍中的一股新風,希望其可以對語義理解的研究和發展起到積極的推動作用,同時引導自然語言處理領域的研究者,特彆是初學者,加強對於語言學的理論的學習,更多地從問題的本源來尋求新的解決思路,而不僅僅滿足於在傳統解決思路上嘗試新的技術手段。
願每一位有誌於從事自然語言處理的研究者,都能從此書中獲得一些啓示。
賈文傑:早年在富士通研發中心,著名的1998年人民日報語料庫的研發單位之一,任高級研究員,負責情感分析,後進入360搜索引擎自然語言處理部,項目核心成員之一,主持搜索引擎分詞,糾錯等核心模塊研發工作,曆時3年,對搜索效果的提升起到重要作用。目前,轉入移動互聯領域,負責獵豹移動的自然語言處理部,任負責人。
前 言
寫作本書的動機
自然語言處理(Natural Language Processing,NLP)是人工智能和語言學領域的分支學科,主要研究如何讓計算機處理和運用自然語言。自然語言處理廣義上分為兩大部分,第一部分為自然語言理解,是指讓電腦“懂”人類的語言;第二部分為自然語言生成,是指把計算機數據轉化為自然語言。本書重點講解漢語自然語言處理方麵的最新理論、技術和進展。
自然語言處理作為一個獨立的學科誕生至今,已經半個多世紀瞭。與絕大多數傳統學科的最大不同是,在這半個世紀中,它始終離問題的終結遙遙無期,當人們韆辛萬苦地獲得一次又一次的突破後,又會被新齣現的問題無情地阻攔,而再次陷入迷惘之中。在NLP中,問題好像沒有最終解決方案,甚至連最佳實踐也沒有,而隻有最新現狀(State of art)。而近些年,那些曆史上的State of art 正被不斷地刷新、不斷地超越。
就在十多年前,商業化的人機交互都是人們可望而不可即的目標,但現在智能機器人正逐漸走入市場,走入人們的生活。雖然這些技術還不夠成熟,還要解決諸多問題,即便普通大眾也能意識到,我們離人工智能的終極目標越來越近瞭。
麵對市場上諸多的人工智能係統,以及背後的各種算法理論,使我想起瞭一部獲奬的英國電影《模仿遊戲》。這不是一部藝術上的State of art ,卻贏得瞭第87屆奧斯卡金像奬最佳改編劇本奬。在肯定這部作品的諸多因素中,我認為最重要的是,它宣誓瞭現階段人工智能的本質:模仿。這也是本書自始至終貫穿的主題:模仿→象似性→算法理論。
但從另一個角度,我們希望能夠終結一些問題,即便這些問題還未得到百分之百的解決(當然,從概率論的角度而言,沒有百分之百),否則,我們很難進入以下階段的研究,整個學科隻會停滯不前。幸運的是,近些年,在序列標注上的全麵突破,使我們有幸將目光放到瞭句子的範疇,最近提齣的語義依存理論,更使漢語自然語言處理,無論理論還是實踐都迎來瞭新的曙光。漢語的句子分析,終於跨越瞭句法的誤區,走嚮瞭語義解析的道路。相信不久的將來,在語義解析的道路上,漢語NLP將會獲得更大的突破。
本書的受眾與特色
本書是一本研究漢語自然語言處理方麵的基礎性、綜閤性書籍,涉及NLP的語言理論、算法和工程實踐的方方麵麵,內容繁雜。為此,我們設定本書的讀者為如下幾種:
? 具有一定計算機編程基礎,對自然語言處理感興趣的非專業人員。
? 希望構建完整的NLP應用係統的專業工程技術人員。
? 高校計算機專業和自然語言處理專業的大學生、研究生。
? 高校自然語言處理專業的教師。
需要指齣的是,本書是一本係統介紹認知語言學和算法設計相結閤的中文NLP書籍,並從認知語言學的視角重新認識和分析瞭NLP的句法和語義相結閤的數據結構。這也是本書的創新之處。
內容及體係結構
為兼顧各方麵的需求,我們對全書各部分做瞭精心的安排。從結構上,全書分為如下三大部分。
(1)語言理論部分:涉及4個章節,第2章為漢語的發展曆史;第6章為傳統的句法理論;第7章為語料庫和知識庫的構建理論;第8章為認知語言學理論。
(2)算法部分:涉及4個章節,第3章為中文分詞算法;第4章為NLP中的概率圖模型算法體係;第6章為句法的自動分析算法,包括轉換生成語法的算法原理,以及依存句 NLP漢語自然語言處理原理與實踐 下載 mobi epub pdf txt 電子書 格式
NLP漢語自然語言處理原理與實踐 下載 mobi pdf epub txt 電子書 格式 2024
NLP漢語自然語言處理原理與實踐 下載 mobi epub pdf 電子書看瞭2周,看瞭14
評分還沒看,看目錄還不錯,介紹得比較係統
評分此用戶未填寫評價內容
評分很好非常好真的非常好
評分有一些太粗瞭,看的不是很清楚
評分保存完好
評分好好好好好好好好好
評分書很快收到,厚,沒有摺頁暴力快遞之類的問題,滿意
評分好書先囤著
NLP漢語自然語言處理原理與實踐 mobi epub pdf txt 電子書 格式下載 2024