發表於2024-11-29
本書首先介紹如何設置基本的數據科學工具箱,然後帶你進入數據改寫和預處理階段,這一部分主要是闡明所有與核心數據科學活動相關的數據分析過程,如數據加載、轉換、修復以及數據探索和處理等。最後,通過主要的機器學習算法、圖形分析技術,以及所有易於錶現結果的可視化工具,實現對數據科學的概述。
本書行文過程以數據科學項目為主體,輔以整潔的代碼和簡化的示例,能幫助你理解與項目相關的潛在原理和實際數據集。
通過閱讀本書,你將學到:
使用Windows、Mac和Linux係統上的Python科學環境設置數據科學工具箱
為數據科學項目準備數據
為瞭解決數據科學問題,進行數據操作、修復和探索
建立實驗流程來檢驗數據科學假設
為數據科學任務選擇*有效和可擴展的學習算法
優化機器學習模型,以獲得*佳性能
進行圖的探索和聚集分析,充分利用數據中的聯係和連接
本書由兩位資深數據科學傢撰寫,融閤其多年從事數據科學相關的教學和科研工作經驗,藉助現有的Python語法和結構知識,全麵而係統地講解進行數據科學分析和開發的相關工具、技術和*佳實踐,包含清晰的代碼和簡化的示例。通過閱讀本書,你將深入理解Python核心概念,成為高效數據科學實踐者。
本書共6章,係統介紹瞭進行數據科學分析和開發所涉及的關鍵要素。書中首先介紹Python軟件及相關工具包的安裝和使用;接著不僅講解數據加載、運算和改寫等基本數據準備過程,還詳細介紹特徵選擇、維數約簡等高級數據操作方法;並且建立瞭由訓練、驗證、測試等過程組成的數據科學流程,結閤具體示例深入淺齣地講解瞭多種機器學習算法;然後介紹瞭基於圖模型的社會網絡創建、分析和處理方法;最後講解數據分析結果的可視化及相關工具的使用方法。
Alberto Boschetti 數據科學傢、信號處理和統計學方麵的專傢。他擁有通信工程專業博士學位,現在倫敦居住和工作。基於所從事的項目,他每天都要麵對包括自然語言處理、機器學習和概率圖模型等方麵的挑戰。他對工作充滿激情,經常參加學術聚會、研討會等學術活動,緊跟數據科學技術發展的前沿。
Luca Massaron 數據科學傢、市場研究總監,是多元統計分析、機器學習和客戶洞察方麵的專傢,有十年以上解決實際問題的經驗,使用推理、統計、數據挖掘和算法為利益相關者創造瞭巨大的價值。他是意大利網絡受眾分析的先鋒,並在Kaggler上獲得排名前十的佳績,隨後一直熱心參與一切與數據分析相關的活動,積極給新手和專業人員講解數據驅動知識發現的潛力。他崇尚大道至簡,堅信理解數據科學的本質能帶來巨大收獲。
譯者序
前言
第1章 新手上路1
1.1 數據科學與Python簡介1
1.2 Python的安裝2
1.2.1 Python 2還是Python 33
1.2.2 分步安裝3
1.2.3 Python核心工具包一瞥4
1.2.4 工具包的安裝7
1.2.5 工具包升級9
1.3 科學計算發行版9
1.3.1 Anaconda10
1.3.2 Enthought Canopy10
1.3.3 PythonXY10
1.3.4 WinPython10
1.4 IPython簡介10
1.4.1 IPython Notebook12
1.4.2 本書使用的數據集和代碼18
1.5 小結25
第2章 數據改寫26
2.1 數據科學過程26
2.2 使用pandas進行數據加載與預處理27
2.2.1 數據快捷加載27
2.2.2 處理問題數據30
2.2.3 處理大數據集32
2.2.4 訪問其他數據格式36
2.2.5 數據預處理37
2.2.6 數據選擇39
2.3 使用分類數據和文本數據41
2.4 使用NumPy進行數據處理49
2.4.1 NumPy中的N維數組49
2.4.2 NumPy ndarray對象基礎50
2.5 創建NumPy數組50
2.5.1 從列錶到一維數組50
2.5.2 控製內存大小51
2.5.3 異構列錶52
2.5.4 從列錶到多維數組53
2.5.5 改變數組大小54
2.5.6 利用NumPy函數生成數組56
2.5.7 直接從文件中獲得數組57
2.5.8 從pandas提取數據57
2.6 NumPy快速操作和計算58
2.6.1 矩陣運算60
2.6.2 NumPy數組切片和索引61
2.6.3 NumPy數組堆疊63
2.7 小結65
第3章 數據科學流程66
3.1 EDA簡介66
3.2 特徵創建70
3.3 維數約簡72
3.3.1 協方差矩陣72
3.3.2 主成分分析73
3.3.3 一種用於大數據的PCA變型—Randomized PCA76
3.3.4 潛在因素分析77
3.3.5 綫性判彆分析77
3.3.6 潛在語義分析78
3.3.7 獨立成分分析78
3.3.8 核主成分分析78
3.3.9 受限玻耳茲曼機80
3.4 異常檢測和處理81
3.4.1 單變量異常檢測82
3.4.2 EllipticEnvelope83
3.4.3 OneClassSVM87
3.5 評分函數90
3.5.1 多標號分類90
3.5.2 二值分類92
3.5.3 迴歸93
3.6 測試和驗證93
3.7 交叉驗證97
3.7.1 使用交叉驗證迭代器99
3.7.2 采樣和自舉方法100
3.8 超參數優化102
3.8.1 建立自定義評分函數104
3.8.2 減少網格搜索時間106
3.9 特徵選擇108
3.9.1 單變量選擇108
3.9.2 遞歸消除110
3.9.3 穩定性選擇與基於L1的選擇111
3.10 小結112
第4章 機器學習113
4.1 綫性和邏輯迴歸113
4.2 樸素貝葉斯116
4.3 K近鄰118
4.4 高級非綫性算法119
4.4.1 基於SVM的分類算法120
4.4.2 基於SVM的迴歸算法122
4.4.3 調整SVM123
4.5 組閤策略124
4.5.1 基於隨機樣本的粘閤策略125
4.5.2 基於弱組閤的分袋策略125
4.5.3 隨機子空間和隨機分片126
4.5.4 模型序列—AdaBoost127
4.5.5 梯度樹提升128
4.5.6 處理大數據129
4.6 自然語言處理一瞥136
4.6.1 詞語分詞136
4.6.2 詞乾提取137
4.6.3 詞性標注137
4.6.4 命名實體識彆138
4.6.5 停止詞139
4.6.6 一個完整的數據科學示例—文本分類140
4.7 無監督學習概述141
4.8 小結146
第5章 社會網絡分析147
5.1 圖論簡介147
5.2 圖的算法152
5.3 圖的加載、輸齣和采樣157
5.4 小結160
第6章 可視化161
6.1 matplotlib基礎介紹161
6.1.1 麯綫繪圖162
6.1.2 繪製分塊圖163
6.1.3 散點圖164
6.1.4 直方圖165
6.1.5 柱狀圖166
6.1.6 圖像可視化167
6.2 pandas的幾個圖形示例169
6.2.1 箱綫圖與直方圖170
6.2.2 散點圖171
6.2.3 平行坐標173
6.3 高級數據學習錶示174
6.3.1 學習麯綫174
6.3.2 驗證麯綫176
6.3.3 特徵重要性177
6.3.4 GBT部分依賴關係圖179
6.4 小結180
“韆裏之行,始於足下。”
—老子(公元前604—531年) 數據科學屬於相對較新的知識領域,它需要成功融閤綫性代數、統計建模、可視化、計算語言學、圖形分析、機器學習、商業智能、數據存儲和檢索等眾多學科。
Python編程語言在過去十年已經徵服瞭科學界,它現在是數據科學實踐者不可或缺的工具,也是每一個有抱負的數據科學傢的必備工具。Python為數據分析、機器學習和算法問題求解提供瞭快速、可靠、跨平颱、成熟的開發環境。無論之前數據科學應用中阻止你掌握Python的原因是什麼,這些都將通過我們簡單的分步化解和示例導嚮的方法來解決,我們將幫助你在演示數據集和實際數據集上使用最直接有效的Python工具。
藉助你現有的Python語法和結構知識(不要擔心,如果你需要獲取更多的Python知識,我們有一些Python教程),本書將從介紹建立基本的數據科學工具箱開始。接著,它將引導你進入完整的數據改寫和預處理階段。我們還需要花一定量的時間來解釋數據類型的轉換、修復、探索和處理等核心活動。然後,我們將演示高級數據科學操作,建立變量和假設選擇的實驗流程,優化超參數,有效地使用交叉驗證和測試。最後,我們將完成數據科學精要的概述,介紹主要的機器學習算法、圖的分析技術和所有用於呈現結果的可視化方法。
在數據科學項目的具體演示過程中,永遠都伴有清晰的代碼和簡化的例子,以幫助你理解項目背後的機製和實際數據集。本書也會給你一些經驗提示,幫助你立即上手當前的項目。準備好瞭嗎?相信你已經準備踏上這個漫長而又值得期待的旅程瞭。
本書內容 第1章介紹所有必需的基礎工具(用於交互計算的shell命令、庫和數據集),使用Python可以立即開始數據科學分析。
第2章闡明如何加載要處理的數據,當數據太大計算機不能處理時要采用替代技術。本章介紹瞭所有主要的數據操作和轉換技術。
第3章提供瞭高級數據探索和操作技術,使用復雜的數據操作進行特徵創建和精簡、數據異常檢測、驗證技術應用等。
第4章帶你學習Scikit-learn庫中最重要的學習算法,演示瞭實際應用以及為瞭獲得每種機器學習技術的最佳結果,指齣瞭應該重點檢查的關鍵數值和要調試的參數。
第5章詳細介紹瞭一些實用又有效的數據處理技術,用於處理錶示社會實體之間的關係或相互作用的數據。
第6章利用圖形化錶示完善數據科學概述。如果你想形象地錶示復雜的數據結構、機器學習過程和結果,這些可視化技術是不可或缺的。
閱讀準備 本書提到的Python及其他數據科學工具,從IPython到Scikit-learn都能在網上免費下載。要運行本書附帶的源代碼,需要一颱帶有Windows、Linux或Mac OS操作係統的計算機。本書將分步介紹Python解釋器以及運行示例所需要的其他工具和數據的安裝過程。
讀者對象 本書基於你已經具備的一些核心技能,能使你變成高效的數據科學從業者。因此,我們假定你具有編程和統計學方麵的基礎知識。
本書提供的示例代碼不需要你精通Python語言,但是假設你至少瞭解一些基礎知識,如Python腳本編寫、列錶和字典數據結構、類對象的工作原理等。在閱讀本書之前,花幾個小時學習一下第1章推薦的網絡課程,就可以快速獲得這些知識,當然也可以學習其他相關教程。
本書並不需要高級數據科學的概念,我們提供的信息足夠幫助你理解本書示例用到的核心概念。
總的來說,本書適閤以下人員:
. 有較少的Python編程經驗和數據分析知識,但還沒有數據科學算法等專業知識,有誌於成為數據科學傢的新手。
能熟練運用R和Matlab等工具進行統計建模、願意利用Python進行數據科學處理的數據分析師。
有意學習數據操作和機器學習、不斷拓展知識麵的開發者和程序員。
數據科學導論:Python語言實現 下載 mobi pdf epub txt 電子書 格式 2024
數據科學導論:Python語言實現 下載 mobi epub pdf 電子書以python解釋的,正好瞧瞧
評分還算滿意,還沒有開始看,希望自己能堅持下來
評分買買買,服務態度好,不錯,可以,買買買。
評分非常喜歡,十分滿意,下次再來
評分正版,專業必備的經典書籍,不錯
評分這本書 ...這麼說呢 講的還行 但是有些地方寫的不是很好 代碼部分 刻畫的不是很詳細 圖給的挺多 但是我覺得還是寫的比較粗獷
評分這本書 ...這麼說呢 講的還行 但是有些地方寫的不是很好 代碼部分 刻畫的不是很詳細 圖給的挺多 但是我覺得還是寫的比較粗獷
評分11.11,每年都要跟下技術潮流啊。
評分正版,專業必備的經典書籍,不錯
數據科學導論:Python語言實現 mobi epub pdf txt 電子書 格式下載 2024