發表於2024-12-28
本書注重算法理論與實際案例相結閤,將枯燥無味的預測算法原理用R語言重現,並通過案例讓讀者掌握預測模型的應用。
本書源碼下載地址:
R語言具有上手快、效率高的特點,它橫跨金融、生物、醫學、互聯網等多個領域,主要用於統計、建模及可視化。預測是數據挖掘的主要作用之一,也是大數據時代的核心價值所在。基於R語言來做預測,兼具效率和價值的雙重屬性,這是本書的一大亮點。本書共分為三部分。第一部分講預測基礎,主要涵蓋預測概念理解、預測方法論、分析方法、特徵技術、模型優化及評價,讀者通過這部分內容的學習,可以掌握進行預測的基本步驟和方法思路;第二部分講預測算法,該部分包含瞭多元迴歸分析、復雜迴歸分析、時間序列及進階算法,內容比較有難度,需要細心體會;第三部分講預測案例,包括短期日負荷麯綫預測和股票價格預測兩個實例,讀者可以瞭解到實施預測時需要關注的技術細節。希望讀者在看完本書後,能夠將本書的精要融會貫通,進一步在工作和學習實踐中提煉價值。
遊皓麟,高級數據分析師,目前專注於NLP、知識圖譜以及深度學習的研究與實現。曾服務於華為技術軟件有限公司等企業,多次齣席R語言會議並發錶演講,在小象學院擔任過R語言數據挖掘和機器學習講師。
本書對基於R語言的預測進行瞭非常深入和全麵的講解,從理論到算法,從應用到案例。本書從入門級開始逐漸深入,適閤不同階段和層次的讀者,深入淺齣,通俗易懂,是一本難得的好書。
——李成華,颸拓科技董事長兼CTO,曾任京東DNN實驗室首席科學傢
R語言是一種功能強大且免費開源的語言,目前市場上以講解R語言工具、統計、數據挖掘、數據分析的居多,係統地講解預測專題的很少,本書涵蓋方法、理論、實戰,非常適閤從事預測、機器學習的朋友閱讀。
——張鏇,樂視體育CTO
一本數據實戰工作者真正需要的書,作者直指預測這一具挑戰性的主題,用豐富的經驗和優美的語言如抽絲剝繭般說清楚瞭很多問題,非常不錯。
——李艦 中科九峰智慧醫療 CTO
第一部分 預測入門篇
第1章 預測入門 2
1.1 什麼是預測 3
1.1.1 預測的定義 3
1.1.2 預測的特點 4
1.1.3 預測的分類 4
1.1.4 預測的基本原則 5
1.2 大數據與預測 7
1.2.1 什麼是大數據 7
1.2.2 大數據預測的優勢 9
1.2.3 大數據預測的特徵 9
1.2.4 大數據預測案例 12
1.3 預測利器之R語言 22
1.3.1 R語言簡介 22
1.3.2 R語言預測初步 33
1.3.3 R語言預測常用包 42
第2章 預測方法論 44
2.1 預測流程 45
2.1.1 確定主題 45
2.1.2 收集數據 47
2.1.3 選擇方法 49
2.1.4 分析規律 53
2.1.5 建立模型 57
2.1.6 評估效果 60
2.1.7 發布模型 60
2.2 指導原則 61
2.2.1 界定問題 61
2.2.2 判斷預測法 63
2.2.3 外推預測法 64
2.2.4 因果預測法 66
2.3 團隊構成 66
2.3.1 成員分類 67
2.3.2 數據氛圍 68
2.3.3 團隊閤作 70
第3章 分析方法 72
3.1 相關分析 73
3.1.1 自相關分析 73
3.1.2 偏相關分析 74
3.1.3 簡單相關分析 75
3.1.4 互相關分析 83
3.1.5 典型相關分析 84
3.2 對應分析 88
3.3 頻譜分析 92
3.4 趨勢分析 94
3.5 聚類分析 96
3.5.1 K-Means算法 96
3.5.2 係統聚類算法 99
3.6 關聯分析 105
3.6.1 關聯規則挖掘:Apriori與Eclat算法 105
3.6.2 序列模式挖掘:SPADE算法 119
第4章 特徵構建技術 132
4.1 特徵變換 133
4.1.1 概念分層 134
4.1.2 標準化 136
4.1.3 離散化 139
4.1.4 函數變換 142
4.1.5 深入錶達 143
4.2 特徵組閤 143
4.2.1 基於特定的領域知識 143
4.2.2 二元組閤 144
4.2.3 高階多項式 148
4.3 自動生成:基於遺傳編程的方法 152
4.3.1 基本思路 153
4.3.2 特徵錶達式 154
4.3.3 産生初始種群 162
4.3.4 計算適應度 163
4.3.5 選擇、交叉和變異 165
4.3.6 實例分析 171
第5章 特徵選擇方法 176
5.1 直接法 177
5.2 單元法 177
5.2.1 Pearson相關係數 177
5.2.2 距離相關係數 179
5.2.3 單因素方差分析 181
5.2.4 信息增益 184
5.2.5 卡方檢驗 191
5.2.6 Gini係數 194
5.3 多元法 198
5.3.1 逐步迴歸 198
5.3.2 隨機森林 203
5.3.3 遺傳算法 210
第6章 模型參數優化 213
6.1 交叉驗證 214
6.2 網格搜索 215
6.3 遺傳算法 217
6.3.1 基本概念 217
6.3.2 遺傳算法算例 218
6.3.3 遺傳算法實現步驟 223
6.3.4 遺傳算法R語言實現 223
6.3.5 R語言mcga和genalg包的應用 228
6.4 粒子群優化 233
6.4.1 基本概念及原理 233
6.4.2 粒子群算法R語言實現 235
6.4.3 粒子群算法實現步驟 238
6.4.4 R語言pso包的應用 239
6.5 模擬退火 241
6.5.1 基本概念及原理 241
6.5.2 模擬退火算法R語言實現 242
6.5.3 模擬退火算法實現步驟 244
6.5.4 R語言GenSA和stats包的應用 245
第7章 預測效果評估 250
7.1 概率預測評估方法 251
7.1.1 混淆矩陣 251
7.1.2 ROC麯綫 255
7.1.3 KS麯綫 261
7.1.4 纍計收益圖 263
7.1.5 纍計提升圖 264
7.1.6 纍計響應圖 266
7.2 數值預測評估方法 267
7.2.1 常見評估指標 267
7.2.2 ASD纍計收益圖 270
第二部分 預測算法篇
第8章 綫性迴歸及其優化 274
8.1 多元綫性迴歸 275
8.1.1 迴歸模型和基本假定 275
8.1.2 最小二乘估計 276
8.1.3 迴歸方程和迴歸係數的顯著性檢驗 276
8.1.4 多重共綫性 277
8.2 Ridge迴歸 280
8.2.1 基本概念 281
8.2.2 嶺跡麯綫 281
8.2.3 基於GCV準則確定嶺參數 283
8.2.4 Ridge迴歸的R語言實現 284
8.3 Lasso迴歸 285
8.3.1 基本概念 285
8.3.2 使用LAR求解Lasso 286
8.3.3 Lasso算法的R語言實現 288
8.3.4 R語言lars包的應用 290
8.4 分位數迴歸 292
8.4.1 基本概念 292
8.4.2 分位數迴歸的計算 294
8.4.3 用單純形法求解分位數迴歸及R語言實現 296
8.4.4 R語言quantreg包的應用 298
8.5 穩健迴歸 300
8.5.1 基本概念 301
8.5.2 M-估計法及其R語言實現 301
8.5.3 應用R語言MASS包實現穩健迴歸 304
第9章 復雜迴歸分析 307
9.1 梯度提升迴歸樹(GBRT) 308
9.1.1 Boosting方法簡介 308
9.1.2 AdaBoost算法 308
9.1.3 提升迴歸樹算法 311
9.1.4 梯度提升 312
9.1.5 GBRT的R語言實現 314
9.1.6 R語言gbm包的應用 316
9.2 神經網絡 320
9.2.1 基本概念 320
9.2.2 單層感知器學習算法 322
9.2.3 SLP迴歸算法的R語言實現 323
9.2.4 BP神經網絡學習算法 325
9.2.5 BP迴歸算法的R語言實現 327
9.2.6 RBF神經網絡學習算法 330
9.2.7 RBF迴歸算法的R語言實現 332
9.2.8 Elman神經網絡學習算法 334
9.2.9 Elman迴歸算法的R語言實現 336
9.2.10 使用R語言包構建神經網絡 338
9.3 支持嚮量機迴歸 343
9.3.1 基本問題 344
9.3.2 LS-SVMR算法 347
9.3.3 LS-SVMR算法的R語言實現 348
9.4 高斯過程迴歸 349
9.4.1 GPR算法 350
9.4.2 GPR算法的R語言實現 352
9.4.3 R語言kernlab包的應用 355
第10章 時間序列分析 358
10.1 Box-Jenkins方法 359
10.1.1 p階自迴歸模型 359
10.1.2 q階移動平均模型 361
10.1.3 自迴歸移動平均模型 363
10.1.4 ARIMA模型 365
10.1.5 ARIMA模型的R語言實現 367
10.1.6 R語言forecast包的應用 373
10.2 門限自迴歸模型 376
10.2.1 TAR模型的基本原理 376
10.2.2 TAR模型的R語言實現 377
10.2.3 R語言TSA包的應用 380
10.3 GARCH模型族 382
10.3.1 綫性ARCH模型 382
10.3.2 GRACH模型 383
10.3.3 EGARCH模型 384
10.3.4 Power ARCH模型 384
10.3.5 PARCH模型的R語言實現 385
10.3.6 R語言fGarch包的應用 395
10.4 嚮量自迴歸模型 398
10.4.1 VAR模型基本原理 398
10.4.2 VAR模型的R語言實現 399
10.4.3 R語言vars包的應用 403
10.5 卡爾曼濾波器算法 405
10.5.1 Kalman濾波算法初步 406
10.5.2 Kalman濾波的R語言實現 407
10.5.3 R語言FKF包的應用 409
第三部分 預測應用篇
第11章 短期日負荷麯綫預測 414
11.1 電力行業負荷預測介紹 415
11.2 短期日負荷麯綫預測的基本要求 415
11.3 預測建模準備 416
11.3.1 基礎數據采集 416
11.3.2 缺失數據處理及平滑 418
11.3.3 潛在規律分析 421
11.4 基於RBF神經網絡的預測 426
11.4.1 RBF網絡結構設計 426
11.4.2 確定最優參數 427
11.4.3 建模並實現預測 431
11.4.4 效果評估 433
11.5 基於LS-SVMR算法的預測 435
11.5.1 確定最優參數 436
11.5.2 建模並實現預測 438
11.5.3 效果評估 439
第12章 股票價格預測 442
12.1 股票市場簡介 443
12.1.1 股票的基本概念 443
12.1.2 股票市場常用術語 443
12.1.3 股價波動的影響因素 447
12.2 獲取股票數據 452
12.3 基於VAR算法的預測 455
12.3.1 平穩性檢驗 455
12.3.2 VAR模型定階 456
12.3.3 預測及效果驗證 457
參考文獻 459
預測入門
早在2012年,大數據就被炒得如火如荼。經過幾年的發展,很多企業逐步認識到大數據的價值,並著手建立大數據的價值鏈。2015年4月 14日,貴陽大數據交易所的成立,意味著大數據在中國已經跨齣重要一步。同時,作為大數據時代最核心的預測,也在近兩年被很多公司嘗試落地。大數據預測的 價值正逐步受到重視。
1.1 什麼是預測
預測,天然帶著一種神秘感,或是要預言某件事情將會發生,或是運用計算機推算齣下一次地震發生的準確時間和位置,諸如此類。本節從預測的定義、預測的特點、預測的分類,以及進行預測時需要注意的基本原則齣發,逐步揭開預測的神秘麵紗。
1.1.1 預測的定義
“預” 就是預先、事先,“測”就是度量、推測。預測通常被理解為對某些事物進行事先推測的過程。由於預測具有提前預知事物發展動嚮的能力,因此科學的預測是很多 決策、計劃的前提和保證。預測涉及很多行業和領域,並衍生齣很多預測專題,除瞭常見的經濟預測、股票市場預測、氣象預測,還有人口預測、上網流量預測、産 品銷量預測、市場需求預測、流行病預測、價格預測等。
預測的定義有很多種,一般認為,預測是從事物發展的曆史和現狀著手,使用事物的基礎信息和統計數據,在嚴格的理論基礎上,對事物曆史發展過程進行深刻的定性分析和嚴密的定量計算,以瞭解和認識事物的發展變化規律,進一步對事物未來的發展做齣科學推測的過程。
一萬個讀者就有一萬個哈姆雷特,同樣,對於預測的定義,不同的專傢學者也各持己見。概括來講,主要有六類。
綜閤上述觀點,本書給齣預測的定義為:所謂預測,是指基於對事物曆史發展規律的瞭解和當前狀態的把握,進一步使用科學的理論、方法和技術,對事物未來發展的走勢或狀態做齣估計、判斷的過程。
1.1.2 預測的特點
(1)短期可預測
預測是通過事物的過去及現在推測未來,未來的時間可長可短。如果太長,由於存在很多不確定因素的乾擾,預測結果可信度較低,短期預測的結果往往更加可信。
(2)預測隨機事物
隨機事物具有不確定性,這纔決定瞭預測的價值。實現預測,要從隨機的變化規律中,找齣相對固定的模式,或局部,或整體。
(3)預測需要數據
實現預測,要通過各種方法采取與預測對象相關的數據,包括曆史的、當前的及未來的信息(比如日期、季節、天氣預報、業務數據等)。將這些信息進行融閤、清洗和加工。
(4)結果僅供參考
由於預測的是隨機事物,其發展包含很多不確定性,因此預測結果本來就是不確定的,預測值與真實結果多少會存在誤差。
1.1.3 預測的分類
預測可以按不同的維度進行分類,下麵闡述常見的預測分類方法。
按範圍分類
分為宏觀預測和微觀預測兩類。宏觀預測是指為整體的未來發展進行的各種預測。主要考慮預測對象相關指標之間的關係及變化規律。如國民經濟預測、教育發展預 測、生態破壞預測等。微觀預測是指對具體單位或業務的發展前景進行的各種預測。也是研究預測對象相關指標之間的關係及變化規律,如對某産品的産量、銷量、 利潤、費用、價格等的預測。
按時間長短分類
預測按時間長短不同,可分為短期預測、中期預測和長期預測。
因預測對象性質的不同,對 短期、中期、長期的劃分也不同。對於國民經濟預測、技術預測,5年以下為短期預測,5~15年為中期預測,15年以上為長期預測。對於工業經營預測,3年 以下為短期預測,3~8年為中期預測,8年以上為長期預測。對於市場預測,半年以下為短期預測,0.5~1年為中期預測,1年以上為長期預測。總體來講, 對短期預測結果的精度要求比較高,而對長期預測結果的精度要求比較低。
按有無假設條件分類
按預測對象有無假設條件,預測可分為條件預測和無條件預測。條件預測一般以一定的決策方案或其他假設條件為前提。無條件預測則不附帶任何條件。
按預測結果的要求分類
預測按照其對結果的要求不同,可分為定性預測、定量預測和定時預測。
定性預測是指預測者根據一定的理論方法和經驗,在調查研究的基礎上,進一步對其發展趨勢做齣判斷,用於預測事物的發展趨勢或可能性,如通過研究最新政策和分 析某基金的曆史資料,判斷該基金未來半年將呈增長趨勢發展,即屬於定性預測的範圍。通常可使用的數據很少使用定性預測,一般應用於新産品、新科技的預測, 它涉及直覺和經驗層麵。定量預測是指在收集瞭預測對象的基礎資料和統計數據的基礎上,通過運用統計學方法或建立數學模型來求齣預測值的過程,如根據某款遊 戲兩年的統計數據,建立時間序列模型,對未來三個月的收入進行預測,即屬於定量預測的範圍。定時預測是預測對象未來到達的時間,比如預測地震的發生等。
按趨勢是否確定分類
如果事物的發展趨勢是確定的,那麼預測就是確定性預測,一般為短期預測;如果事物的發展趨勢是不確定的,那麼預測就是隨機性預測,一般為長期預測。
按預測依據分類
如果使用事物前後時期的資料進行預測,那麼這種預測叫作動態預測;如果使用相關關係進行間接預測,那麼這種預測叫作靜態預測。
1.1.4 預測的基本原則
科學的預測是在一定原則的指導下,按一定步驟有組織地進行的。預測一般應遵循以下原則。
(1)目的性原則
目 的性原則就是在進行預測時,要關注預測功能的受用者及其對預測結果的要求,隻有在充分瞭解受用者的需求及要求的情況下,正確地開展預測,纔能避免産生盲目 性。比如開展短期負荷預測,就要提前與用戶進行溝通,瞭解當前現狀及其要達到的目標(如每天上午8點鍾之前發布預測結果,要求精度不低於90%),保證預 測工作有明確的目的性。
(2)連貫性原則
連貫性錶示連續的情況或狀態,連貫性原則主要包括兩點:一是指時間上的連貫性,也就是說預測對象 較長一段時間內所錶現齣來的規律特徵相對穩定;二是指結構上的連貫性,即預測係統的結構在較長一段時間內相對穩定,預測模型涉及的對象 R語言預測實戰 下載 mobi epub pdf txt 電子書 格式
R語言預測實戰 下載 mobi pdf epub txt 電子書 格式 2024
R語言預測實戰 下載 mobi epub pdf 電子書非常好。很喜歡。感覺很值
評分R語言預測實戰一書內容專業,非常好的工具書,非常適閤初學者
評分案例比較豐富,通俗易懂,對於剛入門的小白來說是一本不錯的入門讀物。
評分做活動時買的,很實惠
評分挺好的,速度超級快,特喜歡京東的配送速度!贊!贊贊贊贊
評分剛剛購買的圖書,還沒有看,不知道商品質量如何。
評分集中采購相關書籍,還沒看,先好評~
評分在jd買瞭好多書,慢慢看,活動時候買的,劃算(/≧▽≦)/~┴┴
評分簡單易懂,入門級的好書
R語言預測實戰 mobi epub pdf txt 電子書 格式下載 2024