發表於2024-12-21
書[0名0]: | 基於深度學]習的自然語言處理|7891598 |
圖書定價: | 69元 |
圖書作者: | (以)約阿夫·戈爾德貝格(Yoav Goldberg) |
齣版社: | 機械工業齣版社 |
齣版日期: | 2018/5/1 0:00:00 |
ISBN號: | 9787111593737 |
開本: | 16開 |
頁數: | 0 |
版次: | 1-1 |
內容簡介 |
本書重點介紹瞭神經網絡模型在自然語言處理中的應用。先介紹有監督的 機器學習和前饋神經網絡的基本知識,如何將機器學習方法應用在自然語言處理中,以及詞嚮量錶示(而不是符號錶示)的應用。然後介紹更多專門的神經網絡結構,包括一維捲積神經網絡、循環神經網絡、條件生成模型和基於注意力的模型。後討論樹形網絡、結構化預測以及多任務學習的前景。 |
目錄 |
譯者序 |
譯者序 |
自然語言處理(Natural Language Processing,NLP)主要研究用計算機來處理、理解以及運用人類語言(又稱自然語言)的各種理論和方法,屬於人工智能領域的一個重要研究方嚮,是計算機科學與語言學的交叉學科,又常被稱為計算語言學。隨著互聯網的快速發展,網絡文本尤其是用戶生成的文本呈爆炸性增長,為自然語言處理帶來瞭巨大的應用需求。同時,自然語言處理研究的進步,也為人們更深刻地理解語言的機理和社會的機製提供瞭一種新的途徑,因此具有重要的科學意義。 然而,自然語言具有歧義性、動態性和非規範性,同時語言理解通常需要豐富的知識和一定的推理能力,這些都給自然語言處理帶來瞭極大的挑戰。目前,統計機器學習技術為以上問題提供瞭一種可行的解決方案,成為研究的主流,該研究領域又被稱為統計自然語言處理。一個統計自然語言處理係統通常由兩部分組成,即訓練數據(也稱樣本)和統計模型(也稱算法)。 但是,傳統的機器學習方法在數據獲取和模型構建等諸多方麵都存在嚴重的問題。首先,為獲得大規模的標注數據,傳統方法需要花費大量的人力、物力、財力,雇用語言學專傢進行繁瑣的標注工作。由於這種方法存在標注代價高、規範性差等問題,很難獲得大規模、高質量的人工標注數據,由此帶來瞭嚴重的數據稀疏問題。其次,在傳統的自然語言處理模型中,通常需要人工設計模型所需要的特徵以及特徵組閤。這種人工設計特徵的方式,需要開發人員對所麵對的問題有深刻的理解和豐富的經驗,這會消耗大量的人力和時間,即便如此也往往很難獲得有效的特徵。 近年來,如火如荼的深度學習技術為這兩方麵的問題提供瞭一種可能的解決思路,有效推動瞭自然語言處理技術的發展。深度學習一般是指建立在含有多層非綫性變換的神經網絡結構之上,對數據的錶示進行抽象和學習的一係列機器學習算法。該方法已對語音識彆、圖像處理等領域的進步起到瞭極大的推動作用,同時也引起瞭自然語言處理領域學者的廣泛關注。 深度學習主要為自然語言處理的研究帶來瞭兩方麵的變化:一方麵是使用統一的分布式(低維、稠密、連續)嚮量錶示不同粒度的語言單元,如詞、短語、句子和篇章等;另一方麵是使用循環、捲積、遞歸等神經網絡模型對不同的語言單元嚮量進行組閤,獲得更大語言單元的錶示。除瞭不同粒度的單語語言單元外,不同種類的語言甚至不同模態(語言、圖像等)的數據都可以通過類似的組閤方式錶示在相同的語義嚮量空間中,然後通過在嚮量空間中的運算來實現分類、推理、生成等各種任務並應用於各種相關的任務之中。 雖然將深度學習技術應用於自然語言處理的研究目前非常熱門,但是市麵上還沒有一本書係統地闡述這方麵的研究進展,初學者往往通過學習一些在綫課程(如斯坦福的CS224N課程)來掌握相關的內容。本書恰好彌補瞭這一不足,深入淺齣地介紹瞭深度學習的基本知識及各種常用的網絡結構,並重點介紹瞭如何使用這些技術處理自然語言。 本書的作者Yoav Goldberg現就職於以色列巴伊蘭大學,是自然語言處理領域一位非常活躍的青年學者。Goldberg博士期間的主要研究方嚮為依存句法分析,隨著深度學習的興起,他也將研究興趣轉移至此,並成功地將該技術應用於依存句法分析等任務。與此同時,他在理論上對詞嵌入和傳統矩陣分解方法的對比分析也具有廣泛的影響力。另外,他還是DyNet深度學習庫的主要開發者之一。可見,無論在理論上還是實踐上,他對深度學習以及自然語言處理都具有非常深的造詣。這些都為本書的寫作奠定瞭良好的基礎。 由於基於深度學習的自然語言處理是一個非常活躍的研究領域,新的理論和技術層齣不窮,因此本書很難涵蓋所有的最新技術。不過,本書基本涵蓋瞭目前已經被證明非常有效的技術。關於這方麵的進展,讀者可以參閱自然語言處理領域最新的論文。 我們要感謝對本書的翻譯有所襄助的老師和學生。本書由哈爾濱工業大學的車萬翔、郭江、張偉男、劉銘四位老師主譯,劉挺教授主審。侯宇泰、薑天文、李傢琦、覃立波、宋皓宇、滕德川、王宇軒、嚮政鵬、張楊子、鄭桂東、硃海潮、硃慶福等對本書部分內容的初譯做瞭很多工作,機械工業齣版社華章公司策劃編輯硃劼和姚蕾在本書的整個翻譯過程中提供瞭許多幫助,在此一並予以衷心感謝。 譯文雖經多次修改和校對,但由於譯者的水平有限,加之時間倉促,疏漏及錯誤在所難免,我們真誠地希望讀者不吝賜教,不勝感激。 車萬翔 2017年10月於哈爾濱工業大學 |