發表於2024-12-21
本書由tidytext創建者親筆撰寫,係統闡述如何使用基於R的整潔工具來進行文本分析。書中首先介紹整潔文本的格式,以及如何獲取整潔文本數據集;並通過tidytext中的情感數據集來進行情緒分析;接著介紹如何根據tf-idf統計量來識彆特定文檔中的重要單詞,以及如何利用n-gram來分析文本中的文字網絡;之後介紹如何將整潔文本轉換為文檔詞項矩陣和Corpus對象格式,並給齣瞭主題建模的概念;最後通過整閤多種已知的整潔文本挖掘方法,給齣瞭一些研究案例,這些案例涉及Twitter歸檔文件、NASA數據集以及來自新聞組的即時通訊信息。總的來說,本書側重於分析文學、新聞和社交媒體方麵的文本,非常適閤從事相關文本挖掘的工作人員,也適閤自然語言的初學者。與此同時,使用書中提供的大量針對性編程例子,不但可以提高工程實戰能力,而且可以在本書提到的整潔框架上建立自己的分析任務。
Julia Silge 是Stack Overflow的數據科學傢,負責復雜數據集分析及與不同受眾進行技術主題交流。 她擁有天體物理學博士學位,熱愛簡·奧斯汀和製作美麗的圖錶。
David Robinson 是Stack Overflow的數據科學傢,普林斯頓大學定量與計算生物學博士。他喜歡開發開源R軟件包,包括broom、gganimate、fuzzyjoin和widyr,還喜歡撰寫統計、R和文本挖掘等方麵的博客。
“David和Julia已經在tidytext包集成瞭文本分析方法,因此不再需要學習一套全新的工具集,可以應用所有熟悉的數據框方法和可視化方法。”
– Hadley Wickham,RStudio首席科學傢,Auckland大學、Stanford大學、Rice大學統計學教授
目錄
前言 1
第1章 整潔文本格式 7
比較整潔文本結構與其他數據結構 8
unnest_tokens函數 8
整理Jane Austen的作品 10
gutenbergr包 13
詞頻 13
總結 17
第2章 基於整潔數據的情感分析 18
情感數據集 18
內連接的情感分析 21
比較三個情感詞典 24
最常見的正麵單詞和負麵單詞 26
Wordclouds模塊 28
除單詞外的其他文本單元 30
總結 32
第3章 分析詞和文件頻率:tf-idf 33
Jane Austen小說中的詞項頻率 34
Zipf定律 35
bind_tf_idf函數 38
物理學語料庫 41
總結 45
第4章 詞之間的關係:n-gram及相關性 46
n-gram詞條化 46
用widyr包對單詞對計數並計算相關性 60
總結 66
第5章 非整潔格式轉換 67
使文檔–詞項矩陣整潔 67
將整潔文本數據轉換為矩陣 74
總結 84
第6章 主題建模 85
LDA 86
示例:博大的圖書館館藏 91
LDA方法的替代實現 101
總結 102
第7章 案例研究:Twitter歸檔文件比較 103
單詞使用情況的比較 107
單詞使用情況的變化 109
收藏和轉發 113
總結 117
第8章 案例研究:NASA元數據挖掘 118
NASA如何組織數據 118
共現單詞與相關單詞 123
計算描述字段的tf-idf 129
總結 142
第9章 案例研究:分析Usenet文本 143
預處理 143
新聞組中的單詞 146
情感分析 151
總結 159
參考文獻 160
前言
如果你從事分析或數據科學方麵的工作,那麼一定熟知這樣一個事實:數據正在以前所未有的速度快速生成(也許這樣的話有很多人都講過)。通常培訓分析人士來處理數字的錶格或規整的數據。但現在大部分新增的數據都是非結構化的文本,而許多在分析領域工作的人都沒有接受過乃至簡單接受過處理自然語言方麵的訓練。
盡管我們熟悉許多數據處理和可視化方法,但是將這些方法應用於文本處理並非易事,所以開發瞭tidytext R包(Silge和Robinson,2016)。我們發現采用數據整潔原則可以使許多文本挖掘任務變得更簡單、更有效,並且該原則和廣泛使用的工具也是相一緻的。把文本當作由單個單詞構成的數據框的優勢在於:(1)有助於輕鬆地操作、匯總以及展示文本特徵;(2)有助於將自然語言處理整閤到有效的工作流程中。
本書介紹瞭如何使用tidytext包以及其他基於R語言的tidy工具來進行文本挖掘。tidytext包提供的函數相對簡單,但如何使用這個包則很重要。因此,本書還提供瞭真實的、極具吸引力的文本挖掘案例。
大綱
本書首先介紹整潔文本格式,一些有關dplyr、tidyr和tidytext包的使用方法則按如下過程來介紹:
第1章概述瞭整潔文本格式和unnest_tokens()函數,同時介紹瞭gutenbergr和janeaustenr包,這些包提供瞭與文學相關的文本數據集,本書會使用這些數據集來進行介紹。
第2章介紹瞭如何使用tidytext中的sentiments數據集以及dplyr包中的inner_join()函數來對整潔文本數據集進行情感分析。
第3章介紹瞭tf-idf統計量(詞項頻率乘以逆文檔頻率),它可用來識彆特定文檔中特彆重要的詞項。
第4章介紹瞭n-gram以及如何使用widyr包和ggraph包來分析文本中的文字網絡。
文本在分析的所有階段並不是整潔的,能夠在整潔和不整潔格式之間進行轉換就顯得非常重要。
第5章介紹瞭通過tm包和quanteda包來使文檔–詞項矩陣和Corpus對象變整潔的方法,以及如何將整潔文本數據集轉換為文檔–詞項矩陣和Corpus對象格式。
第6章介紹瞭主題建模的概念,並使用tidy()方法對topicmodels包的輸齣進行解釋和可視化。
通過整閤多種已知的整潔文本挖掘方法,還給齣瞭幾個研究案例:
第7章通過作者自己的Twitter檔案展示瞭整潔文本分析的應用。例如,Dave和Julia的Twitter習慣有什麼不同?
第8章通過查看超過32 000個NASA數據集(可用於JSON格式)中的關鍵字與標題、描述字段的關係來探索元數據。
第9章分析不同新聞組(與政治、麯棍球、技術、無神論等有關的主題)的即時通信消息數據集來瞭解新聞組中共同的模式。
本書不包括的主題
本書對整潔文本挖掘框架進行瞭介紹,並給齣瞭一係列的示例,但對於全麵研究自然語言處理領域而言,這些依然不夠。CRAN Task View on Natural Language Processing(https://cran.rproject.org/view=NaturalLanguageProcessing)提供瞭其他使用R進行計算語言學研究的詳細信息。根據個人需求,你可能還想在以下方麵進一步研究:
聚類、分類和預測
文本機器學習是一個廣泛的話題,可以輕鬆地找到很多與之相關的內容。第6章將介紹一種無監督聚類(主題建模)方法,但是還有更多其他的機器學習方法可以用來處理文本。
詞嵌入
當前流行的一種文本分析方法是將單詞映射為嚮量,以便能檢查單詞之間的語言關係並對文本進行分類。盡管這些單詞錶示並不像我們理解的那樣整潔,但已經可以在機器學習方法中得以廣泛應用。
更復雜的詞條化
tidytext包通過信任詞條化包(Mullen,2016)來進行標記,其本身使用統一的界麵並包括各種詞條化方法,但是在具體的應用程序中還有許多其他的詞條化方法。
除英文以外的其他語言
一些用戶已經成功地將tidytext應用於除英語以外的其他語言的文本挖掘,但是本書不涵蓋這方麵的例子。
關於本書
本書重點介紹實際軟件示例和數據展示,幾乎沒有公式,但是有大量的代碼。我們重點關注在分析文學、新聞和社交媒體時的深入理解。
本書不需要讀者具有文本挖掘知識,而專業語言學傢和文本分析師可能會認為本書的示例比較初級,但我們相信,他們也可以在這個框架上建立自己的分析。
本書假設讀者至少熟悉R中的dplyr、ggplot2和>(管道)運算符,並且對如何應用這些工具進行文本數據挖掘感興趣。對於沒有這種專業背景的讀者,推薦閱讀Hadley Wickham和Garrett Grolemund(O'Reilly)的《R for Data Science》一書。若讀者有一點背景並對整潔文本感興趣,即使是R初學者也可以理解和使用本書的示例。
如果你正在閱讀本書的紙質版本,那麼圖像會以灰度而不是彩色的形式呈現。要查看彩色版本的圖像,請參閱本書的GitHub頁麵(http://github.com/dgrtwo/tidytext-mining)。
本書約定
本書使用以下慣例:
斜體(Italic)
錶示新的術語、網址、電子郵件地址、文件名和文件擴展名。
等寬字體(Constant width)
用於程序清單,以及段落中引用的程序元素,如變量或函數名稱、數據庫、數據類型、環境變量、語句和關鍵字。
等寬粗體(Constant width bold)
展示用戶應直接輸入的命令或其他文字。
等寬斜體(Constant width italic)
錶示應使用用戶提供的值來替換或由上下文確定的值。
錶示提示或建議。
錶示普通注釋。
錶示警告或注意。
使用代碼示例
本書在大部分分析的過程中都給齣瞭代碼,但齣於篇幅考慮,如果生成圖形的代碼已經齣現過,則不再提供類似的代碼。相信讀者可以學習並延伸本書示例,另外本書代碼可以在GitHub公共庫中找到。
本書旨在幫助讀者完成工作,一般來講,讀者可以在程序和文檔中使用本書提供的示例代碼。除非對代碼的重要部分進行加工齣版,否則不需要與我們聯係。例如,使用本書中多個代碼塊開發程序不需要經過我們許可,但齣售或發行O扲eilly書籍示例的CD-ROM則需要許可,引用本書和示例代碼來迴答問題不需要許可,將本書中重要的示例代碼閤並到産品文檔則需要許可。
如果你引用瞭本書中的內容,我們希望你能注明齣處,包括標題、作者、齣版商和ISBN。
例如:“Text Mining with R by Julia Silge and David Robinson (O扲eilly). Copyright 2017 Julia
Silge and David Robinson, 978-1-491-98165-8”。
如果你認為本書代碼示例或上述許可不閤理,請隨時通過permissions@oreilly.com與我們聯係。
Safari�栽諳咄際�
Safari是一個為企業、政府、教育和個人提供的會員製培訓、參考平颱。
會員可以訪問數以韆計的書籍、培訓視頻、學習路徑、互動教程以及來自250多個齣版社策劃的播放列錶,包括O'Reilly Media、Harvard Business Review、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Adobe、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett,以及其他在綫技術。
更多信息請訪問:http://oreilly.com/safari。
聯係我們
對於本書,如果有任何意見或疑問,請按照以下地址聯係本書齣版商。
美國:
O'Reilly Media,Inc.
1005 Gravenstein Highway North
Sebastopol,CA 95472
中國:
北京市西城區西直門南大街2號成銘大廈C座807室(100035)
奧萊利技術谘詢(北京)有限公司
要詢問技術問題或對本書提齣建議,請發送電子郵件至:
bookquestions@oreilly.com
要獲得更多關於我們的書籍、會議、資源中心和O'Reilly網絡的信息,請參見我們的網站:
http://www.oreilly.com
http://www.oreilly.com.cn
我們在Facebook上的主頁:http://facebook.com/oreilly
我們在Twitter上的主頁:http://twitter.com/oreillymedia
我們在YouTube上的主頁:http://www.youtube.com/oreillymedia
緻謝
非常感謝為推進本項目做齣貢獻、提供幫助和觀點的人,這裏特彆感謝幾個人和組織。
感謝Oliver Keyes和Gabriela de Queiroz對tidytext的貢獻、Lincoln Mullen在tokenizers軟件包方麵的工作、Kenneth Benoit在quanteda軟件包方麵的工作,Thomas Pedersen在ggraph軟件包方麵的工作,以及Hadley Wickham在製定數據整潔原則和構建整潔工具方麵的工作。還要感謝Karthik Ram和rOpenSci,他們在項目之初進行召集,感謝NASA Datanauts項目成員,感謝你們在項目期間對Julia提供的機會和支持。
仔細、徹底的技術審查大大提高瞭本書的質量。特彆感謝Mara Averick、Carolyn Clayton、Simon Jackson、Sean Kross和Lincoln Mullen,感謝你們在技術評論中投入的時間和精力。
本書是以公開方式進行撰寫的,有幾個人通過提齣要求或問題的方式提供瞭建議。特彆感謝那些通過GitHub做齣貢獻的人:@ainilaha、Brian G. Barkley、Jon Calder、@eijoac、
Marc Ferradou、Jonathan Gilligan、Matthew Henderson、Simon Jackson、@jedgore、
@kanishkamisra、Josiah Parry、@ suyi19890508、Stephen Turner,以及Yihui Xie。
最後,我們想把本書獻給各自的愛人——Robert和Dana,韆言萬語匯成一句發自肺腑的謝謝。
文本挖掘:基於R語言的整潔工具 [Text Mining with R: A Tidy Approach] 下載 mobi pdf epub txt 電子書 格式 2024
文本挖掘:基於R語言的整潔工具 [Text Mining with R: A Tidy Approach] 下載 mobi epub pdf 電子書文本挖掘:基於R語言的整潔工具 [Text Mining with R: A Tidy Approach] mobi epub pdf txt 電子書 格式下載 2024