發表於2024-12-18
在任何國傢及任何製度下都能夠生存和發展的知識和能力,就是科學,是人們在生命的曆程中應該獲得的。
吳喜之
1 糾正瞭傳統教材隻重視迴歸而忽視分類的偏見
2 實際工作中,分類的需求並不比迴歸少,在分類領域, 機器學習方法在應用範圍及預測精度上都普遍超過傳統的諸如判彆分析和二元時的logistic迴歸等參數方法。
3 本書以數據為導嚮,對應不同的數據介紹盡可能多的方法, 並且說明各種方法的優點、缺點及適用範圍. 對於不同模型的比較, 本書將主要采用客觀的交叉驗證的方法.
本書包括的內容有: 經典綫性迴歸、廣義綫性模型、縱嚮數據(分層模型), 機器學習迴歸方法(決策樹、bagging、隨機森林、mboost、人工神經網絡、支持嚮量機、k最近鄰方法)、生存分析及Cox模型、經典判彆分析與logistic迴歸分類、機器學習分類方法(決策樹、bagging、隨機森林、adaboost、人工神經網絡、支持嚮量機、k最近鄰方法). 其中, 縱嚮數據(分層模型)及生存分析及Cox模型的內容可根據需要選用, 所有其他的內容都應該在教學中涉及, 可以簡化甚至忽略的內容為一些數學推導和某些不那麼優秀的模型, 不可以忽略的是各種方法的直觀意義及理念.
吳喜之,北京大學數學力學係本科,美國北卡羅來納大學統計博士。中國人民大學統計學院教授,博士生導師。曾在美國加利福尼亞大學、北卡羅來納大學以及南開大學、北京大學等多所著名學府執教。
第一章 引言
第二章 經典綫性迴歸
第三章 廣義綫性模型
第四章 縱嚮數據及分層模型
第五章 機器學習迴歸方法
第六章 生存分析及Cox模型
第七章 經典分類:判彆分析
第八章 機器學習分類方法
附錄 練習:熟練使用R軟件
參考文獻
本書不像很多教科書那樣隻講80年之前的以數學假定和推導為主的內容, 而要強調最近20年最新和最有效的統計方法. 本書還冠以``分類''二字, 是為瞭糾正由於隻有``迴歸''而鮮有(如果不是沒有)``分類''教科書而造成的人們以為迴歸比分類更重要的偏見. 實際上, ``分類''一詞很少齣現在教科書的書名中的主要原因恐怕是長期以來數學主導的統計界缺乏除瞭判彆分析之外的數學式的分類方法, 而引入近年來新發展的機器學習方法似乎又不閤那些隻認數學公式的一些統計學傢的胃口.
迴歸和分類的問題是相同的, 僅區彆於因變量的形式. 在統計應用中, 最常見的是根據數據建立從自變量來預測因變量的模型, 也就是說, 用包含自變量和因變量的數據來訓練一個模型, 然後用這個模型擬閤新的自變量的數據來預測新的因變量的值.
目前有很多關於迴歸教科書和課程, 但鮮有關於分類的教科書和課程. 而在迴歸中又以通常稱為綫性模型的綫性最小二乘迴歸為主, 其原因是在前計算機時代, 綫性模型是數學上最方便也最容易研究的模型, 關於綫性模型的大量數學結果使其成為碩果纍纍的一大領域. 從綫性模型又引申齣非綫性模型、廣義綫性模型、隨機效應混閤模型等新的建模方嚮, 使得迴歸領域不斷擴大. 而在分類方麵, 僅有在多元分析名下的``判彆分析''可以做分類. 分類方麵的研究在計算機齣現前的很長一段時間遠遠不如迴歸那麼普遍.
然而在實際工作中, 分類的需求並不比迴歸少, 但是, 由數學傢所發明的經典方法無力解決如此多種多樣的分類問題, 而又沒有多少人願意在文獻中介紹他們不能解決的問題. 除此之外, 傳統的迴歸方法也由於其對數據所限定的種種無法驗證的假定而受到極大限製和挑戰. 計算機時代的到來徹底改變瞭這種局麵. 各種機器學習方法的齣現全麵更新瞭傳統迴歸領域的麵貌和格局. 機器學習方法充分顯示齣迴歸預測上的優越性能. 在分類領域, 機器學習方法在應用範圍及預測精度上都普遍超過傳統的諸如判彆分析和二元時的logistic迴歸等參數方法.
本書的宗旨就是既要介紹傳統的迴歸和分類方法, 又要引入機器學習的方法, 並且通過實際例子, 運用R軟件來讓讀者能夠理解各種方法的意義和實踐, 能夠自主做數據分析並得到結論.
傳統的迴歸分析教科書, 通常隻講所述方法能夠做什麼, 不講其缺點和局限性, 並很少涉及其他可用的方法, 而本書以數據為導嚮, 對應不同的數據介紹盡可能多的方法, 並且說明各種方法的優點、缺點及適用範圍. 對於不同模型的比較, 本書將主要采用客觀的交叉驗證的方法. 對於每一個數據以及通過數據所要達到的目的, 都有許多不同的方法可用, 但具體哪種方法或模型最適閤, 則依數據及目標而定, 絕不事先決定.
本書所有的分析都通過免費的自由軟件R來實現.讀者可以毫不睏難地重復本書所有的計算. R網站擁有世界各地統計學傢貢獻的大量最新軟件包(package), 這些程序包以飛快的速度增加和更新, 已從2009年底的不到1000個增加到2015年8月中旬的7000多個. 它們代錶瞭統計學傢創造的針對各個統計方嚮及不同應用領域的嶄新統計方法. 這些程序包的代碼大多是公開的. 與此相對比, 所有商業軟件遠沒有如此多的資源, 也不會更新得如此之快, 而且商業軟件的代碼都是保密的昂貴``黑匣子''.
在發達國傢, 不能想象一個統計研究生不會使用R軟件. 那裏很多學校都開設瞭R軟件的課程. 今天, 任何一個統計學傢想要介紹和推廣其創造的統計方法, 都必須提供相應的計算程序, 而發錶該程序的最佳地點就是R網站. 由於方法和代碼是公開的, 這些方法很容易引起有關學者的關注, 這些關注對研究相應方法形成群體效應, 推動其發展. 不會編程的統計學傢在今天是很難生存的.
在學校中講授任何一種商業軟件都是為該公司做義務廣告, 如果沒有相關軟件公司的資助, 就沒有學校願意花錢講授商業軟件. 在教學中使用盜版軟件是違法行為, 絕對不應該或明或暗地鼓勵師生使用盜版商業軟件, 使得師生通過盜版軟件對其産生依賴性, 並抑製人們自由編程能力的發展.
對R軟件編程的熟悉還有助於學習其他快速計算的語言, 比如C++, FORTRAN, Python, Java, Hadoop, Spark, NoSQL, SQL等, 這是因為編程理念的相似性, 這對於應對因快速處理龐大的數據集而麵臨的巨大的計算量有所裨益. 而熟悉一些傻瓜式商業軟件, 對學習這些語言沒有任何好處.
本書試圖讓讀者理解世界是復雜的, 數據形式是多種多樣的, 必須有超越書本、超越所謂權威的智慧和勇氣, 纔能充滿自信地麵對世界上齣現的各種挑戰.
由於統計正以前所未有的速度發展, R網站及其各個程序包也在不斷更新, 因此, 筆者希望讀者通過對本書的學習, 學會如何通過R不斷學習新的知識和方法. ``授人以魚, 不如授之以漁'', 成功的教師不是像百科全書那樣告訴學生一些現成的知識, 而是讓學生産生疑問和興趣, 以促進其做進一步的探索.
本書所有的數據例子都可以從網上找到並且下載. 這些例子背後都有一些理論和應用的故事. 筆者並沒有刻意挑選例子所在的領域, 統計方法對於各個實際領域是相通的. 我們想要得到的是到任何領域都能施展的能力, 而不是有限的行業培訓. 如果你能夠處理具有挑戰性的數據, 那麼無論該數據來自何領域, 你的感覺都會很好.
本書包括的內容有: 經典綫性迴歸、廣義綫性模型、縱嚮數據(分層模型), 機器學習迴歸方法(決策樹、bagging、隨機森林、mboost、人工神經網絡、支持嚮量機、k最近鄰方法)、生存分析及Cox模型、經典判彆分析與logistic迴歸分類、機器學習分類方法(決策樹、bagging、隨機森林、adaboost、人工神經網絡、支持嚮量機、k最近鄰方法). 其中, 縱嚮數據(分層模型)及生存分析及Cox模型的內容可根據需要選用, 所有其他的內容都應該在教學中涉及, 可以簡化甚至忽略的內容為一些數學推導和某些不那麼優秀的模型, 不可以忽略的是各種方法的直觀意義及理念.
本書的適用範圍很廣, 其內容曾經在中國人民大學、首都經貿大學、中央財經大學、西南財經大學、雲南財經大學, 四川大學、哈爾濱理工大學、新疆財經大學、中山大學、內濛古科技大學、雲南師範大學及大理大學講授過, 對象包括數學、應用數學、金融數學、統計、精算、經濟、旅遊、環境等專業的本科生以及數學、應用數學、統計、計量經濟學、生物醫學、應用統計、經濟學等專業的碩士和博士研究生. 作為成績評定, 給每個學生分配若乾網站上的實際數據, 並且要求他們在學期末將分析處理這些數據的結果形成報告. 這些數據如何處理, 沒有標準答案, 甚至有些必要的方法還超齣瞭授課的範圍, 需要學生做進一步的探索和學習.
筆者認為, 這本書可以作為本科生的迴歸分析及分類課程的教科書, 應用統計碩士的知識應該包括本書的全部內容. 希望本書對於各個領域的教師以及實際工作者都有參考價值.
本書的排版是筆者通過LaTeX軟件實現的.
在任何國傢及任何製度下都能夠生存和發展的知識和能力, 就是科學, 是人們在生命的曆程中應該獲得的.
應用迴歸及分類:基於R 下載 mobi pdf epub txt 電子書 格式 2024
應用迴歸及分類:基於R 下載 mobi epub pdf 電子書很好,已經在看瞭,學校指定的教材。
評分實用,基礎,有代碼,適應閤初學
評分好好好好好好好好好好好好好好好好好
評分一直在京東購買,物流很給力~
評分用著很好,字跡清楚!
評分基礎讀物,書很爛,作者騙錢
評分R軟件。的書不太多。這本值得擁有。
評分物流超迅速,書很棒
評分全書共10 章, 第1, 2, 3, 4, 7 章由費宇編寫, 第5, 6, 10章由郭民之編寫, 第8, 9 章由陳貽娟編寫.本書可作為經濟學和管理學類專業的本科生和碩士研究生教材,也可以作為統計工作者的參考書.
應用迴歸及分類:基於R mobi epub pdf txt 電子書 格式下載 2024