發表於2024-12-22
《揭開數據真相:從小白到數據分析達人》收錄瞭生活中常見的統計圖錶、各類數據,並告訴我們如何“閱讀”這些數據,從中發現被掩蓋或忽視的數據真相,瞭解真正的現實。
掌握書中的這些技巧,相信你會煉成一雙火眼金睛,一眼看穿數據背後內涵,做齣真實的判斷。
統計數據之所以強大有力,原因在於它對我們的希望、夢想和信仰無動於衷——數據讓我們客觀地看待事物。不過,當人們不喜歡數據告訴我們的結果時,常常對其進行操縱……因此懂得解釋統計數據,瞭解各種歪麯、濫用數據的技術對於理解數據真相是非常必要的。
《揭開數據真相:從小白到數據分析達人》教給讀者神聖的技術,讓讀者學會如何質疑“看得見”的數據,並挖齣“看不見”的數據真相,還原基本的事實。
《揭開數據真相:從小白到數據分析達人》適閤所有對數據分析感興趣的讀者。
李芳,翻譯瞭多本著作,其中包括暢銷書《深入淺齣數據分析》,文筆流暢,內容豐富通俗易懂,深受讀者的歡迎。 作者是數學老師,也是科普作傢,著有多種相關圖書。包括Challeng Math, Prmary Grade Challenge Math,Real World Algebra, Becoming a Problem Solving Genius.
大數據和數據分析是近年來炙手可熱的概念,通過數據驅動産品開發(産品經理也需要數據來驗證産品設計的邏輯),通過數據來做市場營銷(增長黑客),通過數據AB測試改進用戶體驗(有一傢專門做AB 測試優化的公司Optimizely,每年也會召開Opticon大會),通過數據來提高內部效率改進流程(比如廣告産品,點擊率轉化),已經在矽榖有很多廣泛實踐,並達成共識。
但數據會不會欺騙我們,造成偏見?個人認為數據本身是客觀的,但每個人看待問題的角度和目的不同,可能人為地造成錯覺甚至幻覺。在學校從事研究工作的時候,導師就強調怎麼選取樣本和數據,如果為瞭達到某些“好”結果,精心挑選數據,甚至篡改數據,這就違背瞭科研精神,一旦發現,輕者論文貢獻取消,重者可能趕齣科研圈。所以如何辨彆真理和謬誤,利用好科學工具去更好的認知,這就是新的挑戰。可能讀者會抱怨,沒有經過係統科學訓練,在茫茫數據和文獻中如何分析和判斷,是不是要再去讀一個數學課程呢?這其實也沒有必要,對大多常人來說那些數學公式是浪費時間,主要還是見識一些常見套路,遇到類似的能舉一反三,升華齣來一些方法論就更棒瞭。
這本書就從很多實例中總結瞭數據分析的技巧和“騙人”招數。比如通過內在不完備的樣本,精心挑選的平均數,統計圖錶範圍的切割,相關係數因果關係的誤解,混淆邏輯,操控是非,達到一些不可告人的目的。這並不是一本教科書,讓你去學習深奧枯燥的統計數學,而是用風趣幽默的例子從彆的視角來觀察世界,啓迪智慧。
——董飛,矽榖數據工程師(微信公眾號:董老師在矽榖)
世上有三種謊言:小謊,大謊,和統計數字(本傑明·迪斯雷利)
數據讓人著迷,真相與規律深藏其中,混沌中蘊含秩序;統計讓人迷惑,看似精巧實則冰山一角,圖錶裏一目瞭然的“事實”背後是作者有意無意掩蓋或忽略的驚天“秘密”,堪稱一場精巧玲瓏的“局”。是數字在說謊?是幕後詭計?還是讀者想錯?讓我們跟隨本書精彩淺顯的案例,看一幕幕心機大戲是如何上演,又如何“穿幫”的,擦亮雙眼,做大數據時代的數字流言終結者。
——新浪微博@愛可可-愛生活
互聯網時代帶來瞭數據的爆發,如何分析數據對現代社會的生活和工作變得愈發的重要。數據分析是一門復雜的學科,同時又跟生活密切相關。如何解讀公司、機構發布的數據?如何看待朋友圈爆款文章裏羅列的數據?如何看待各種體育賽事相關的各種數據?看過這本書之後,或許你會有一個全新的認識。
——鄒昕,Facebook數據科學傢(微信公眾號:再生談)
引 言 X
第1 章 幾乎不可信的各種圖形 1
燕麥的降膽固醇功效 1
美化上升的犯罪率(純屬虛構) 4
哪傢汽車製造公司更棒? 8
條形圖中的黨派差異 10
在綫廣告衰退正式開始 12
美化SAT 成績 17
美國中西部生熱燃料消費價格飛漲 20
交通事故死亡人數減少瞭嗎? 24
惡化房地産低迷狀況 25
超大號熊貓金幣 27
吊頂條形圖的巧妙騙術 28
第2 章 所比較的群體旗鼓相當嗎? 31
加利福尼亞州是否比伊拉剋更危險? 31
全球變暖和聳人聽聞的颶風損失 33
揭穿數據謊言
VI
某中西部城市學習成績飆升的錶象 36
租金輔助計劃與犯罪率上升有關係嗎? 41
第3 章 先射箭,再畫靶 45
冥想實驗 46
關節炎患者的天大好消息――或者相反 48
舊車換現金計劃“慘敗” 49
民意調查公司/智庫閤作關係 51
傑·雷諾居然也操縱統計數據 54
第4 章 誠實統計的力量 56
忽視統計警告,喪失4000 條生命 56
數學對陣專業品酒師 58
數學對陣法律專傢 60
統計――18 個月挽救100000 條性命 62
統計――幫助急診室醫生做齣更好的判斷 64
統計――提高棒球隊成績?(棒球星探對陣計算機) 65
統計的早期利用,挽救數韆生命 67
第5 章 故施迷霧 69
辛普森案 69
雷氏綜閤徵如何導緻數百例兒童死亡――這本來可以避免! 73
導緻年輕女子中風的厭食劑 74
煙草行業――統計操縱與故布迷陣的行傢裏手 75
石棉:壽險公司所知道的、石棉行業故作不知的危險 79
VII
第6 章 資助效應 83
錢能控製數據,錢能限製公眾得知負麵結果 83
製藥公司刻意壓製負麵數據後果可能很嚴重
(抗抑鬱藥物帕羅西汀的故事) 85
錢可以影響醫生,可以給醫生帶來偏見 87
抗抑鬱劑與安慰劑――齣人意料的勝齣者 88
資助效應甚至會傷害新生兒重癥監護室中最易受傷害的兒童 90
第7 章 爛邏輯 93
新款雪佛蘭福特汽車的驚人燃油效率230 英裏每加侖 93
為什麼患糖尿病的人越來越多? 95
到2048 年,每一個美國人的體重都會超重 96
解開謎團:為什麼加拿大人的預期壽命比美國高 98
誇張的廣告 99
非常奇怪的邏輯 101
第8 章 因果與相關亂象 103
恢復前囚犯的投票權將降低犯罪率 104
因果關係混淆會導緻喪失生命 108
學習成績好的關鍵是讓傢長齣席傢長會 112
音樂與學習成績 113
第9 章 要看就看全部數據 116
選舉奧巴馬總統搞垮瞭股市 116
廣告商與有選擇地使用數據 119
您會選擇哪傢賓館? 121
揭穿數據謊言
VIII
我該買黃金嗎? 123
有可能遭到操縱的閤理圖形 125
第10 章 確認性偏差(所願即所見) 128
星座效應 128
預測死亡的貓 130
分母在哪裏? 133
畫中音樂 137
《秘密》 141
確認性偏差的負麵特性 144
輔助溝通 148
第11 章 稻草人論證術 152
醫療保健辯論策略 152
2010 年煤礦爆炸以及首席執行官的稻草人辯護術 156
第12 章 操縱均值、中位數和眾數 161
第13 章 軼事證據 168
疾病與軼事證據 169
磁療 171
占蔔杖探測術 172
外星人奇遇 174
結論 176
第14 章 如果你的事業缺乏統計支持,那麼,創造吧 177
潛意識廣告的力量 177
IX
死亡率畸高的神經性厭食癥 179
美國的300 萬名無傢可歸者 180
其他影響公眾的錯誤統計 181
第15 章 令人費解的百分數 183
被百分數愚弄的醫生 183
住傢孩子增長趨勢 184
移民傢庭的刻苦孩子 185
需求神秘下降500% 187
我當初真應該彆開始鍛煉 188
瞭解百分數可以救人性命 191
第16 章 你的樣本閤理嗎? 195
代錶性樣本的重要性 195
總統大選:羅斯福與蘭登 197
當研究參與人自我選擇或樣本有偏差,則結果幾乎總是無效的 198
雙盲的重要性,隨機臨床實驗 200
檢驗組大小的重要性 202
注釋 204
引言
“數學是宇宙與人類交流及吐露真相的方式。”
——伽利略
“數學比其他任何在人類社會中傳承的知識結構更為強大有力。”
——笛卡兒
“數字是最高級彆的知識。它就是知識本身。”
——柏拉圖
統計之所以如此美麗、如此強大有力,原因在於它對我們的希望、夢想和信仰無動於衷——統計讓我們客觀地看待事物。可惜,統計數據常常被當作裁判,當我們不喜歡統計數據告訴我們的結果時,我們可以與之辯論,對其操縱。下麵的實例提醒我們,忽視統計數據傳遞的信息極為危險。1999年,一傢大型製藥企業的一種名為萬絡(Vioxx)的轟動一時的止痛藥物進入最後試驗階段。萬絡能止痛,卻不像阿司匹林那樣會引發胃腸道並發癥,它前途無量,不僅有可能幫助成韆上萬的人,而且能為製藥廠賺取數十億元的真金白銀。
引言
XI
製藥公司明白,必須小心對待萬絡的最終試驗——尤其必須要小心選擇萬絡的競爭藥物,經過深思熟慮,製藥公司決定選擇萘普生(Aleve)作為試驗競爭藥物(因為這種藥物對心髒病是否有防護作用還未知)。
9個月以後,經過對臨床數據進行分析,得齣瞭驚人的結果!服用萬絡的試驗組發作心髒病的次數是服用萘普生的試驗組發作心髒病的次數的4倍。統計結果提供的信息非常清楚——萬絡是心髒病發作的重大原因,這一點可能性很大。
可惜,解釋統計數據的人往往做不到或不願意客觀地審視統計數據,他們很容易受到纔能、意願和貪婪的影響。因此,研究結論未指齣萬絡導緻心髒病發病風險提高400%,而是指齣萘普生導緻心血管疾病的發病率降低80%。這個解釋讓人難以置信,因為,前麵已經提到,萘普生不像阿司匹林,它對心髒的保護作用尚未可知。實際上,如果萘普生確實能將心髒病發病風險降低80%,那麼它的效果將達到阿司匹林的2~3倍!
盡管臨床實驗清楚地錶明萬絡存在危險,萬絡還是得到美國食品和藥品管理局(FDA)的批準,隨後被數百萬人選用。4年以後,萬絡從市場上被撤下,然而這時它引發的心髒病以及死亡人數已經令人膽寒。FDA估計萬絡引發瞭88000至139000例心髒病——其中30%~40%緻命。1在萬絡/萘普生研究中得到的統計值顯示齣清晰的信息,但這些信息遭到忽視,造成韆上萬人死去。
揭穿數據謊言
XII
這些話是伽利略、笛卡兒、柏拉圖對數學的力量的真知灼見。統計的力量在我們的社會中已經作用瞭數百年;使用得當時,這種力量有可能拯救數百萬人的性命。可惜,“統計警告”被歪麯、操縱、最小化的例子不勝枚舉。這種知識和道德上的失敗所造成的結果是——數百萬人喪失本來不必喪失的生命。
我們對於下列問題的統計警告實在反應太慢:
煙草
石棉
苯
萬絡
胃藥
鉛
賴式綜閤癥/阿司匹林關係
酒精
“數學是宇宙與人類交流及吐露真相的方式。”
——伽利略
“數學比其他任何在人類社會中傳承的知識結構更為強大有力。”
——笛卡兒
“數字是最高級彆的知識。它就是知識本身。”
——柏拉圖
引言
XIII
由於濫用、操縱統計數據造成的慘劇不應該緻使我們相信——統計永遠會被操縱,永遠無用,永遠不可信。每一例不恰當使用統計的意外事件總是對應著上百例公正、閤理使用統計的實例——這給社會帶來極大好處。
下列5個實例嚮我們展示瞭統計的有利用途:
有一個統計模型幫助人們在18個月裏防止瞭100000多例由於醫院過錯導緻的死亡。
奧剋蘭運動傢隊聘用隊員的薪水差不多是業界最低的,卻依靠統計成為最佳棒球隊之一。
事實證明,一個數學公式比一群專業品酒師能更準確地預測齣葡萄酒的質量。
一個統計模型比一群全國著名的法律專傢能更準確地預測齣最高法院的投票結果。
統計被用於幫助急診室醫生做齣更好的判斷。
統計具有改善我們生活的能力,因此,懂得如何使用統計是我們的基本要求。此外,由於操縱、欺詐和徹頭徹尾的謊言常常伴隨統計登場,懂得解釋統計數據,對各種歪麯、濫用數據的技術有所瞭解也非常必要。在閱讀本書的過程中,有一些例子可能會引讀者發笑,有一些則令讀者憤慨。我希望,在讀完本書後,讀者不僅懂得如何質疑自己看見的統計數據,而且能夠明白:統計學習並非人們常說的那樣枯燥、乏味。
揭穿數據謊言
XIV
彆擔心,要是彆的辦法都失敗瞭,我們可以操縱數據,讓它看上去能飛。
揭開數據真相:從小白到數據分析達人 下載 mobi pdf epub txt 電子書 格式 2024
揭開數據真相:從小白到數據分析達人 下載 mobi epub pdf 電子書不錯,送貨快,質量也不錯,好評
評分給自己買的書 特彆便宜 活動 算下來4摺不到!
評分這本書很有意思的,感覺還不錯呀。不會覺得很枯燥。
評分不錯不錯還可以還可以(*?´╰╯`?)?
評分很好很好很好很好很好很好
評分很不錯,質量很好,性價比高
評分好書,留在購物車裏麵已經很久,終於一次拿下,非常不錯!
評分超級品類日買的書,價錢還是很劃算的,買瞭好多書,希望下次還有類似活動,繼續囤書
評分僅僅會Python編程是不夠的。想成為一名優秀的數據分析工程師,還需要有全方位、透徹理解問題本質的能力,善於把實際的工作任務拆解成準確的數據問題
揭開數據真相:從小白到數據分析達人 mobi epub pdf txt 電子書 格式下載 2024