初學者必讀,趣味學習統計學,大數據背景下應用導嚮,生活中的統計學入門讀物,工作應用中統計學的學習利刃
《世界是隨機的 大數據時代的概率統計學》共有9章,第1章和第2章介紹概率和隨機變量的基礎知識;第3章和第4章介紹統計和分布的基礎知識;第5章是專門介紹賭博中的概率統計的一章,前四章的知識在這裏得到瞭應用;第6、7、8章分彆介紹瞭概率統計的三個重要方法——假設檢驗、貝葉斯定理和綫性迴歸;第9章是漫談概率統計。《世界是隨機的 大數據時代的概率統計學》努力避開說教式的言辭,把知識融入故事中,在講解知識的同時,帶給讀者閱讀的樂趣。是一本難得的適閤所有對概率統計感興趣或者學習有需求的讀者閱讀。希望《世界是隨機的 大數據時代的概率統計學》可以幫助讀者快速、更深刻地理解和應用大數據。
李帥,大學本科和碩士均就讀於清華大學電子工程係,現就職於國內某網絡技術研究所,任網絡工程師。碩士和工作期間曾參與雲計算、大數據、網絡流量分析等多個科研和工程項目,在雲計算和數據分析等技術領域富有一定經驗。
第1章 概率
1.1 生還是死:這是一個概率問題
1.2 隨機事件:翻飛的硬幣
1.3 條件概率:門後的老山羊與豪車
1.4 獨立事件:反復拋起的硬幣
1.5 全概率法則:英超冠軍爭奪戰
第2章 隨機變量
2.1 隨機變量:骰子遊戲
2.2 期望與方差:百變骰子
2.3 大數定理:莊傢的信條
第3章 統計
3.1 從樣本到總體:管中窺豹
3.2 頻數、均值與中位數:緻敬“黑曼巴”
3.3 方差與標準差:緻敬馬刺
3.4 均值與方差估計:近射與狙擊
第4章 分布
4.1 分布:統計學的“小九九”
4.2 等概率分布:硬幣的兩麵
4.3 幾何分布:一次就好
4.4 二項分布:反復擲骰子
4.5 泊鬆分布:神奇的e
4.6 正態分布:完美麯綫
4.7 指數分布:“二八”與“長尾”
第5章 賭博中的概率統計
5.1 賭博:激情與理性
5.2 雙色球:韆年等一迴
5.3 足彩:愛足球,更愛足彩
5.4 得州撲剋:我不是教你詐
5.5 21點:保守未必是壞事
第6章 假設檢驗
6.1 主場優勢:規律還是假象?
6.2 假設檢驗:主場真的有優勢嗎?
6.3 反證法:無罪推定
第7章 貝葉斯定理
7.1 牧師貝葉斯:深藏功與名
7.2 賭神貝葉斯:一賭定終身
7.3 死神貝葉斯:連環恐怖襲擊
7.4 神探貝葉斯:嫌疑人X的獻身
7.5 樸素貝葉斯:智能分類
第8章 綫性迴歸
8.1 預測未來:以數據之名
8.2 綫性迴歸:奇準的票房預測
8.3 擬閤評估:擬閤優度與分區段擬閤
第9章 漫談概率統計
9.1 正三觀:概率統計常識
9.2 元認知:概率統計之“道”
9.3 兵器譜:統計軟件大盤點
9.4 大數據:創新與挑戰
參考文獻
/ / / / 第1章
概率導語: 我們生活的世界,是確定的還是不確定的?自古至今,人們一直試圖迴答這個哲學命題。一方麵我們確信,蘋果熟透後會從樹上掉下來;另一方麵我們又無法確信,拋起的硬幣落到地上時,哪一麵會朝上。
1.1生還是死: 這是一個概率問題
2012年7月21日,北京大雨傾盆,事後這一天被稱為“北京7·21特大暴雨”。下午兩點,我接到父親的電話,要我趕快迴東北老傢。傢中病危的爺爺快挺不住瞭。
我抓起外套齣瞭門,冒著大雨瘋狂地跑進地鐵,奔嚮北京站。
第二天傍晚五點半,我下瞭火車,直奔醫院。病床前,我看到瘦骨嶙峋的爺爺蜷縮在那裏,已經沒瞭意識,奄奄一息。八點整,爺爺血壓驟降,醫生對父親點瞭點頭,時辰到瞭。我終究沒能和爺爺說上最後一句話。
後來,我常會夢到爺爺。在夢中,爺爺坐在青綠色的老式沙發上,戴著摺疊式老花鏡,饒有興緻地看《城市晚報》。我似乎記得爺爺已經去世瞭,但又分明看到爺爺就坐在那裏。那一刻,夢中的那一刻,我真的分不清爺爺是生還是死。
世界是隨機的——大數據時代的概率統計學第1章概率 00 00 生死與有無、對錯一樣,都是鮮明對立的東西,它們看似是兩條平行的直綫,永不相交。然而,夢中的我卻分不清爺爺是生還是死。生與死真的永無相交的可能嗎?
鷹溪橋上的法剋爾
下麵是美國小說傢安布魯斯·布爾斯的小說《鷹溪橋上》的片段節選,故事發生在美國南北戰爭期間,講述的是農場主法剋爾被處以絞刑的故事。
亞拉巴馬州北部的鐵路橋上,一個男人站在那裏,俯視著橋下二十米處那湍急的流水。這人的雙手被人用繩子綁在身後,一根繩索緊緊地套在他的頸部,繩索的另一端被係在他頭頂上方交叉著的架子上,一段繩子鬆鬆垮垮地垂在他的膝蓋處。鐵軌枕木上鋪著幾塊木闆,他和要對他行刑的一名中士和兩名列兵就站在上麵。
那個即將被施以絞刑的男人看起來大約35歲,一副平民的裝扮。如果從他的舉止行為來看,他像是一位莊園的農場主。他五官端正——鼻子高挺,嘴唇堅毅,額頭飽滿,長長的黑發順直地披在腦後,他的眼睛大而烏黑,麵目和善,人們很難想象到這人即將被施以絞刑而死。
他索性睜開瞭眼睛,看到瞭他身下的流水。“如果我能把雙手掙脫,”他心裏這樣想著,“我就能擺脫頸上的繩索,跳到河裏去,然後潛到水下躲避那些子彈,拼命地遊到河岸邊,鑽進那裏的森林,就能跑迴傢瞭。謝天謝地,我傢不在他們的封鎖綫裏,我的妻子和孩子們離他們的先頭部隊還有些距離。”正當這些想法在犯人腦中閃過時,上尉對中士點頭示意。中士從那塊木闆上跨到瞭一邊。
當法剋爾從橋上徑直地嚮下墜落時,他已經沒有瞭意識,就像是死瞭一樣。仿佛過瞭很久,頸部劇烈地擠壓所帶來的疼痛使他從這種狀態中清醒瞭過來,接著就感到瞭窒息。他知道那條繩索已經斷瞭,他墜入瞭河中,那種窒息的感覺沒有加劇。他在黑暗中睜開瞭眼睛,看到瞭他上方的一道亮光。他的兩隻手快速的嚮下拍水,使身體上浮,他感覺自己的腦袋已經浮齣瞭水麵,炫目的陽光使得他睜不開眼睛。他看到瞭那座橋,以及給他施以絞刑的執行者,他們正大喊著用手指嚮這邊,子彈射到水裏,離他的頭隻有幾英寸的距離,濺起的水花打在他的臉上。
法剋爾猛地嚮水下潛去,盡量鑽到水的深處。法剋爾在湍急的流水中奮力地劃水,他思維清晰,四肢越發有力,心裏想著: “上帝保佑我,保佑我能躲過所有的子彈!”
突然,他感覺自己開始一圈圈地鏇轉起來,像陀螺一樣。水麵、河岸、樹林,已經離得很遠的橋,還有那軍事堡壘和那些士兵,都攪到瞭一起,變得模糊不清。水中的一處漩渦將他捲瞭起來,沒過一會兒,他就被水流拋到瞭左岸邊的一堆礫石上。他喜極而泣,兩手抓起泥沙,一把把的往上揚,落到自己身上,喃喃地說著一些祝福的詞句。他躍身而起,迅速地往坡上的岸邊跑去,鑽進瞭那片樹林。
那一天,他都依照著太陽往前走,那片樹林太過茂密,像是永無盡頭,他到處都找不到一個可以休息的地方,甚至都找不到一條樵夫走過的小道。夜幕降臨時,他已經走得精疲力竭,可是一想到他的妻子和孩子們,他又竭力地繼續嚮前走。最後,他終於找到瞭一條通往他傢的路。那條路像城市裏的街道那樣筆直而寬闊,可卻像是無人從此處通行過,路的兩邊沒有田野,也沒有房屋。他的眼睛有些腫脹,沒法閉眼,口中乾渴,舌頭也發脹起來,他把舌頭伸齣口外去接觸空氣,感受絲絲的涼意。這條沒人走過的路上全是草,這些草多麼柔軟,軟得讓他沒法兒感覺到腳下的路!
他站在自己傢門口,所有的一切都和他離開時一模一樣。當他推開門,他看到瞭女人的衣裙在飄動;他的妻子還是那麼的清新甜美,正從門廊中走齣來迎接他。她走下瞭颱階,臉上帶著不可言喻的笑容,那種氣質簡直無與倫比!啊,她是多麼的美麗!他伸開雙臂衝過去……
——節選自《鷹溪橋上》
讀到這裏,我們的心中難免會有一個疑問: 法剋爾究竟是死瞭還是逃跑瞭?
讀到法剋爾掉入水中,拼命掙紮著爬上岸時,我們相信法剋爾真的逃脫瞭。可是,怪異的樹林、無人走過的路、無法感覺腳下的路,又讓人心生懷疑: 難道這些是法剋爾的幻覺?我們希望法剋爾成功逃脫,迴到傢中與妻子團圓,又擔心一切都是法剋爾的幻覺。法剋爾在我們心中仿佛是一個既可能“生”又可能“死”的人!
薛定諤的貓
要測試你是否真的瞭解“量子物理”,隻需要問你兩個問題。
第一個問題: 你知道“薛定諤的貓”嗎?
(我猜你會點頭。)
第二個問題: 你知道哥本哈根學派嗎?
(彆皺眉瞭,趕快承認不知道吧。)
大多數人都知道這隻著名的貓,卻不知道這隻貓到底是怎麼來的,沒錯,這隻貓與哥本哈根學派有莫大的關係。
哥本哈根學派於20世紀20年代初期建立,對量子物理的創立和發展做齣瞭很多重要貢獻。學派的創始人是著名量子物理學傢玻爾,主要成員包括玻恩、海森堡等知名物理學傢。薛定諤也是量子物理學界的鼻祖,他提齣的“薛定諤方程”為量子力學奠定瞭堅實的基礎,至今摺磨著一代又一代的大學工科男。不過,薛定諤並不是哥本哈根學派的成員,這是因為他對哥本哈根學派的理論存在質疑。為瞭有的放矢地提齣自己的質疑,他腦洞大開地想到瞭一個實驗——“薛定諤的貓”。
“薛定諤的貓”是一個思想實驗,實驗的過程是,把一隻可憐的雌性小貓關在一個密室裏,密室裏有食物也有毒藥,毒藥裝在瓶子裏,瓶子上有一個錘子,錘子由一個電子開關控製,如果電子開關被觸動,錘子就會落下,砸碎瓶子,瓶子裏的有毒氰化物會毒死小貓。問題是: 小貓到底是活著還是死瞭?
實驗的關鍵在於,電子開關是否被觸動是一個隨機發生的事件,發生的概率是50%。這裏的50%不是“拋硬幣50%齣現正麵”這麼簡單,要産生真正的隨機事件,需要使用放射性元素。在微觀世界裏,放射性元素的衰變是宇宙都無法預知的隨機事件,一個真正的有50%概率發生的隨機事件。控製電子開關的正是放射性元素,如果放射性元素發生衰變,則開關被觸動,錘子砸碎毒瓶,小貓必死。
這個問題要分兩種情況討論。
情況一: 我們打開密室觀察,可以確切地知道小貓是生還是死。如果放射性元素發生瞭衰變,那麼可憐的小貓一定已經中毒身亡;如果沒發生衰變,那麼可愛的小貓依然活著。
情況二: 我們不打開密室,由於放射性元素的衰變完全無法預測,所以小貓既可能生,也可能死,我們隻能認為小貓處於“生與死”的疊加狀態!
用量子物理的語言來說,當我們沒有觀察小貓時,小貓是被“概率雲”包裹的,生與死兩種狀態互相疊加,形成瞭一個“疊加態”,當我們進入密室觀察小貓時,“概率雲”瞬間塌縮瞭,於是我們隻能觀察到某一種狀態的小貓。
一隻“既生又死”的貓?這明顯違背常識。薛定諤把微觀世界的疊加狀態平行的移植到宏觀世界中,以此質疑量子物理的“完備性”,也就是說,量子物理中的“疊加態”在宏觀世界中不成立。
量子物理學傢玻爾曾說: “誰要是第一次聽到量子理論時沒有感到睏惑,那他一定沒聽懂。”親愛的讀者朋友,你是聽懂瞭還是沒聽懂呢?
我們活在當下,感知當下,環顧四周,仿佛一切都是確定無疑的。可是,此時此刻,還有很多人、很多事是你感知不到的,對你而言,它們是“不確定的”。鷹溪橋上的法剋爾和薛定諤的貓到底是生還是死?這不再是一個非此即彼的問題,在謎底揭開之前,它們既可能生,也可能死,這是一個概率問題,專門研究概率問題的學科就是——概率論。
最後,我要公布《鷹溪橋上》的結局瞭。
他伸開雙臂衝過去,正要和那美麗的女人擁抱時,他感覺到自己的頸後遭到瞭重重的一擊,隨著一聲大炮的轟鳴,他的四周亮起瞭炫目的白光——接著,一切都陷入瞭黑暗和靜寂。
法剋爾死瞭,他那摺斷瞭頸部的屍體正懸在鷹溪橋後麵的橫木下輕輕地擺動。
——節選自《鷹溪橋上》
1.2隨機事件: 翻飛的硬幣
我的傢鄉鄰近長白山,那一年,我終於登上瞭長白山,見到瞭傳說中的天池。站在山頂嚮下望,天池宛若一麵藍色的魔鏡,靜如止水,莫過如此。上山之前,很多人說,想看到天池要靠運氣,沒多一會兒,我就明白瞭此言不虛。剛剛還晴空萬裏、陽光普照,轉瞬間就是大霧彌漫,我和父親母親隻能手拉著手站在原地,生怕在白茫茫的霧氣中走失。再過一會兒,霧氣緩緩消散,正當大傢拿齣相機要繼續拍照時,烏雲襲來,風雨大作,我們紛紛披上雨衣,站在寒風中瑟瑟發抖。那是我第一次感到大自然的風雲變幻。
自古至今,人們都在試圖迴答一個哲學命題: 我們生活在一個確定的世界還是不確定的世界?我們很確信,蘋果熟透瞭,會從樹上掉下來,但我們又不能確定,拋起的硬幣落到地上時,哪一麵會朝上。對此,哲學領域有兩種不同的論斷。
決定論: 它是指自然界和人類社會普遍存在著客觀規律和必然的因果聯係,也就是說,如果我們能夠發現和理解所有的客觀規律和因果聯係,自然界和人類社會的任何變化都是可以預知的,我們之所以還做不到,是因為我們對客觀規律的認識還不夠。
非決定論: 與決定論相對,非決定論否認自然界和人類社會普遍存在著客觀規律和必然的因果聯係,認為事物的發展變化是沒有客觀規律的,是由事物內在的“自由意誌”決定的,也就是說,人們可以自由支配自己的行為,卻無法預言客觀事物的發展變化和其他人的行為。
我們似乎更容易認同非決定論,畢竟世界如此紛繁復雜,我們隻能控製自己,很難預知未來。但我們不能輕易否定決定論,拋開兩個論斷的對錯之爭,決定論為我們認識世界提供瞭新的思路。下麵,我們就來做一個“拋硬幣”的思想實驗。
思想實驗: 拋硬幣
拋硬幣是大傢十分熟悉的小把戲,足球比賽前,裁判會用拋硬幣的方式讓雙方挑邊,大傢似乎默認拋齣的硬幣落到手上或地上時,正麵和反麵朝上的可能性是相同的。但是,決定論的支持者們對此錶示懷疑,他們提齣瞭如下的思想實驗。
實驗1.0
假定有一颱超高速攝像機和一颱超級力學計算器,攝像機自帶搖臂,可以跟拍動態畫麵,並對拍攝到的畫麵進行實時分析,分辨畫麵中的物體,提取物體的運動參數,這些參數又被實時的傳輸到力學計算器,力學計算器可以根據此前的數據計算齣物體下一時刻的運動狀態。
我們用超高速攝像機對準手上的硬幣,然後,拋起硬幣!超高速攝像機與硬幣一起嚮上升,又一起嚮下降,最後,在硬幣即將落到手上時,力學計算器輸齣瞭計算結果: 正麵嚮上。你展開手掌,露齣瞭硬幣,果然是正麵。
我們在實驗中加入瞭一位超級觀察員——由超高速攝像機和超級力學計算器組閤而成。隻要你不是魔術師,也不刻意作弊,在硬幣即將落到手上時,超級觀察員一定可以準確地告訴你硬幣的哪一麵嚮上。請問: 拋硬幣的結果是隨機的嗎?
我的迴答依然是: 隨機的。原因是,硬幣在運動過程中,可能受到各種因素的乾擾,力學計算器隻能做齣短時間的預測,所以,超級觀察員隻能在硬幣即將落到手上時,纔能計算齣硬幣哪一麵嚮上,因此,在硬幣拋起時,即使是超級觀察員也無法預測硬幣的哪一麵嚮上。為瞭反駁這兩點,我們將思想實驗升級為2.0版。
實驗2.0
在實驗1.0的基礎上,我們加入如下條件: 一是每次硬幣拋擲的周圍環境都一樣;二是你的手升級為超級機器手,內置力學傳感器,你拋起硬幣時對硬幣施加的力全部會被記錄在傳感器的芯片中,同時,超級機器手還可以自由設定拋硬幣使用的力,也就是說,你可以復現曾經齣現過的硬幣拋擲過程。再次請問: 拋硬幣的結果是隨機的嗎?
這時,我有些語塞瞭,在這樣的條件下,如果我們利用超級機器手重復此前的某一次拋擲,那就意味著,在硬幣剛剛拋齣時,我們就知道瞭結果,這時,拋硬幣的結果是確定的!如果我們利用這套裝置不斷進行拋硬幣練習,就會收集越來越多的硬幣拋擲結果,然後,這隻超級機器手就會成為一個開關,它既可以再現過去的拋擲過程,準確預言拋擲結果,也可以進行一次新的拋擲,讓結果隨機齣現。這隻超級機器手掌控著一切,仿佛“造物主”一樣!
決定論的極限錶達是“造物主”,造物主知曉一切,造物主決定一切,造物主預知一切。這種宗教化的解釋自然不在我們的討論範圍內,但“決定論”賦予我們一個很有價值的思想: 不斷探索自然,不斷尋找客觀規律。試想,在牛頓發現萬有引力之前,已有韆韆萬萬個蘋果落到瞭地上,難道我們該認為,這些蘋果擁有“自由意誌”,竟然不約而同地衝嚮地麵嗎?這個看似必然發生的事件,正是萬有引力定律引起的,對這個確定性事件的解釋,讓我們對大自然的認識更加深刻,也正是“決定論”指引我們不斷探索下去。
度量隨機事件
我們從思想實驗中跳脫齣來,迴到現實世界。在現實世界中,每時每刻都在發生各種各樣的事情,有的事像蘋果落地一樣,有確鑿無疑的結果,而有的事卻像拋硬幣一樣,無法預知結果。數學傢們既不是決定論者,也不是非決定論者,他們從數學的角度審視萬事萬物,概率論由此而來。
抽象地講,概率論站在無知者和造物主之間審視世界,力圖從現實世界中發現客觀規律,幫助我們更深刻的認識現實世界。
在概率論的世界裏,拋硬幣、擲骰子等被統稱為隨機試驗,每一個隨機試驗都會有一個或多個可能的結果,一個結果或某些結果的組閤稱為隨機事件。
0 0 舉例來說,拋硬幣是一個隨機試驗,拋硬幣可能的結果有兩個: 正麵和反麵。我們用一個大寫字母來代錶隨機事件,那麼,我們可以得到如下的四個隨機事件。
A: 拋硬幣齣現正麵
B: 拋硬幣齣現反麵
C: 拋硬幣齣現正麵或反麵
D: 拋硬幣既不齣現正麵也不齣現反麵
隨機事件C和隨機事件D往往會給初學概率論的人帶來睏擾,隨機事件C根本就不是“隨機”事件,分明就是一定會發生的確定性事件,隨機事件D正相反,是一定不會發生的事件,自然也不是“隨機”事件。概率論是一門完備的科學,它要涵蓋所有的事件,而不是隻研究那些“隨機”事件,為此,我們需要一個度量隨機事件的工具——概率。
概率,用於度量隨機事件發生的可能性,是個定量指標,用大寫字母P來錶示。例如,隨機事件A發生的概率是50%,可以寫成: P(A)=50%概率有以下兩個特性:
(1) 概率是非負的,即對於任意隨機事件A,P(A)≥0;
(2) 對於任一隨機試驗,我們假定所有可能的結果有n種(n>0),分彆記為A1,A2,…,An,如果這些結果兩兩之間都不可能同時齣現,則P(A1)+P(A2)+…+P(An)=1。
事實上,在概率論所描述的數學世界中,所有的事件都是隨機事件,如果一個事件不可能發生,我們認為它發生的概率是0,如果一個事件必然發生,我們認為它發生的概率是1。下麵我們舉兩個有爭議的例子。
隨機事件A: 公雞下蛋。
這違背常識,不可能發生,P(A)=0。
隨機事件B: 人終有一死。
這是個客觀事實,必然發生,P(B)=1。
就大多數人的認知,這兩個概率是正確的。可是,生物學傢或許會質疑這兩個概率,甚至羅列一長串的生物新技術來反駁這兩個概率。沒錯,我承認這兩個概率可能是錯誤的,正如崔健唱的那樣: “不是我不明白,這世界變化快。”世界在變化,概率也在變化,唯一不變的是: 所有的事件都是隨機事件。
1.3條件概率: 門後的老山羊與豪車
一個囚犯站在法官麵前聽候判決。法官嚴肅地說: “我不得不做齣最嚴厲、最殘酷的判決,這就是絞刑。這個嚴酷的刑罰必須執行,不可更改。除此之外,我唯一的決定權是安排你的行刑日期,對此,我一直在兩個方案之間猶疑。”
“最簡單、最直接的方案是判決即刻生效,馬上執行,但這個判決對你太仁慈瞭,你完全沒有感受到驚恐害怕。因此,我現在決定: 在下周7天中的某一天,我會在日齣時安排執行絞刑。我絕不會提前告訴任何人,我會在哪一天安排絞刑,所以,我保證你不可能事先知道,自己將在哪一天被絞死。每個夜晚,你都將在擔驚受怕中入睡,這是對你最大的懲罰。”
法官宣判完後,囚犯絕望瞭,他轉過頭去,居然看到他的律師露齣瞭微笑。走齣法庭後,律師對囚犯說: “他們不能絞死你瞭,”他解釋道,“按照法官的安排,下周7天中的某一天,他會在日齣時分執行絞刑,而且他們保證不會提前讓你知道。因此,他們不能在星期六絞死你,因為星期六是一周的最後一天,如果星期五的早晨,你還沒有被絞死,你就知道瞭行刑日期必然是星期六。這與法官的安排是矛盾的,因為他的計劃是不讓你知道行刑日期。”
“所以,他們最晚隻能在星期五絞死你,這一點沒問題吧。”囚犯對此錶示贊同。“既然星期六已經排除瞭,星期五就成瞭可以絞死你的最後一天,按照同樣的邏輯,如果你星期四早上還沒被絞死,那麼你一定會在星期五被絞死,這又與法官的安排矛盾。你明白瞭嗎?依照同樣的邏輯,我們還可以排除星期四、星期三,我們可以排除每一天!法官把自己套住瞭!這個判決不可能執行!”
囚犯心情愉快地度過瞭星期一,星期二早晨,他從美夢中醒來,然後被押赴刑場,絞死瞭。
這是一個經典的悖論——意外絞刑悖論,它還有很多種錶現形式,比如老師突襲考試、緊急消防演習等。正如律師所言,如果法官嚴格的執行判決,囚犯將不會被絞死,然而,法官在公布判決結果時已經下定決心: 絞刑必須執行,隻有在這個前提下,纔能體現齣悖論的思辨色彩。哲學傢邁剋爾·斯剋裏文這樣評論意外絞刑悖論: “邏輯的力量遭到事實的否決,我覺得這正是此悖論的迷人之處。可憐的邏輯學傢念著過去屢試不爽的咒語,但事實上這個怪物聽不懂咒語,執意前行。”
我們用概率論分析一下這個悖論。在法官說到,要在一周7天中的某一天處死囚犯時,囚犯在一周7天的任何一天被執行絞刑的概率都是1/7,而當法官說到,囚犯不會知道絞刑在哪一天執行時,概率發生瞭變化,周六執行絞刑的概率原本是1/7,此時卻降為瞭0,因為周六執行絞刑違背瞭“囚犯不知道絞刑在哪一天執行”的條件。一個前提條件,改變瞭事件發生的概率,這就是——條件概率。
“三門問題”
“三門問題”是一個知名的概率問題,這個問題剛好用到瞭“條件概率”,我們一起來看看,條件概率是如何幫助參賽者提高獲勝機會的。
濛提霍爾是一個美國電視節目的主持人,他曾主持過一個有趣的遊戲節目,叫作“Let�餾 make a deal”。節目中有三扇關閉的大門,其中一扇門的後邊是一輛豪車,另外兩扇門的後邊各藏著一隻老山羊。如果參賽者最終選定的門的背後是豪車,參賽者可以開著豪車迴傢,如果是老山羊,參賽者將空手而歸。節目開始後,濛提霍爾讓參賽者從三扇關閉的門中隨便挑選一扇,然後,濛提霍爾會從剩下的兩扇門中打開一扇,門後定會齣現一隻老山羊,因為,濛提霍爾知道豪車藏在哪扇門的後邊。此時,濛提霍爾會給參賽者一個改選的機會,如果你是參賽者,你會改選另一扇門還是堅持最初的選擇?
我猜你此刻在想: 濛提霍爾知道豪車在哪,我可不知道,所以選哪扇門都一樣嘛,改或者不改是一樣的,非要我決定改還是不改的話,拋硬幣好瞭。
節目中的參賽者也是這麼想的,所以他們有的堅持不改,有的搖擺不定之後改選瞭另一扇門。這個遊戲還包含另一層心理層麵的因素,如果參賽者不改變自己最初的選擇,即使他們沒有得到豪車,也會用“堅持自我”來安慰自己,而如果他們改選另一扇門卻落瞭個空,則會懊惱不已,因為他們把到手的豪車拱手送瞭齣去!看起來,不改變自己最初的選擇是對的。“不變初衷”“堅持自我”,多麼勵誌的想法!
然而,科學不相信勵誌。下麵,我就來告訴你,為什麼“堅持自我”是錯誤的。
這個問題中的條件有些復雜,為瞭由淺入深的展開分析,我們對前提條件做一個簡化: 假設主持人不知道哪扇門後邊是豪車,也就是說,在參賽者選擇完一扇門後,主持人在剩下的兩扇門裏隨機挑選一扇。此外,為瞭方便起見,我們把兩隻老山羊分彆記為公山羊和母山羊,很顯然,這樣不會影響計算結果。
在這樣的前提條件下,我們把所有可能的情況列齣來,一共有6種可能的情況,即6個隨機事件,如錶1��1所示。錶1��1“三門問題”的所有可能情況
隨機事件參賽者第一次選擇的門主持人選擇的門剩下的最後一道門A公山羊母山羊豪車B公山羊豪車母山羊C母山羊公山羊豪車D母山羊豪車公山羊E豪車公山羊母山羊F豪車母山羊公山羊現實中,主持人並非隨機選擇瞭一扇門,他隻會選擇公山羊或母山羊麵前的那扇門,所以,隨機事件B和隨機事件D不可能發生!也就是說,當參賽者第一次選擇瞭公山羊或者母山羊時,主持人根本沒有選擇的餘地,他必須選擇另一隻山羊,留下豪車,這時,參賽者應該改變初衷,選擇另一扇門;當參賽者第一次選擇瞭豪車時,主持人一定會留下一隻老山羊,這時參賽者不應該改變初衷。
因此,在下麵三種情況下,參賽者會獲得豪車。
參賽者選擇公山羊�葜鞽秩搜≡衲乾窖顙薟穩�者改選另一扇門�薟穩�者獲得豪車
參賽者選擇母山羊�葜鞽秩搜≡窆�山羊�薟穩�者改選另一扇門�薟穩�者獲得豪車
參賽者選擇豪車�葜鞽秩搜≡衲乾窖蚧蜆�山羊�薟穩�者不改變選擇�薟穩�者獲得豪車
這三種情況包含的一個重要信息是: 隻要知道瞭參賽者第一次選擇的門後是什麼,就知道瞭參賽者是否應該改選另一扇門。下麵,我們來計算參賽者第一次選擇的三種可能的結果齣現的概率。
前言
凱文·凱利在《失控》中曾提道,當高度互聯的低級群體的數量大到一定程度時,群體特徵便會湧現齣來,這特徵是群體中的任何個體都不具備的。比如,大量水滴匯集成河水、海水,便會産生讓水滴“感到陌生”的新特徵——漩渦和波浪。
2013年8月,榖歌公司提齣瞭一個票房預測模型,該模型僅以單詞搜索量為依據,便可以提前一個月預測電影的首周票房,準確度高達94%。更令人驚訝的是,這是一個簡單的綫性迴歸模型。榖歌是如何做到的呢?
人類對數據的處理已經進入大數據時代。可是,絕大多數的人,對數據統計等基本常識還在算術常識時代。這是一個科技的時代,相對於十年前和二十年前,全球市值最大最受人尊敬的公司Top 10,全部變成瞭蘋果、微軟、Google……這些高科技公司,任何普通人都用智能手機,任何人都在享受高科技技術帶來的便利。為瞭更好地工作和生活,我們要瞭解一下這些高科技技術的常識。筆者在這方麵有一些經驗,所以特地編寫瞭本書,希望以比較科普和有趣的筆調,讓你瞭解一門新的科學,甚至進入一個新的領域。
大學本科時,我曾上過“概率論”和“數理統計”兩門課,世界是隨機的——大數據時代的概率統計學前言 雖然完整地學習瞭概率統計,卻隻是一知半解。攻讀碩士時,我在科研工作中需要用到概率統計,方纔無奈地發現,當年所學已完完全全地還給瞭老師。我隻能匆忙地自學瞭概率統計,勉強能應付科研工作,但心中對概率統計的很多概念仍舊一頭霧水。後來,我有幸與我的妻子走到瞭一起,她大學本科和碩士期間都主修“應用數學”專業,在她的幫助下,我這個概率統計的門外漢終於入門瞭。
碩士畢業前,我和妻子共同翻譯瞭一部英文科普讀物《讓你愛上數學的50個遊戲》,這本書幫助我進一步鞏固瞭概率統計知識,也讓我萌生瞭寫書的念頭。畢業後我仍從事科研工作,參與瞭幾個與數據分析有關的項目,發現自己對概率統計的理解仍然不夠深刻。於是我一口氣閱讀瞭幾本概率統計的科普書,比如《深入淺齣數據分析》《深入淺齣統計學》和《生活中的概率趣事》,終於搞懂瞭“貝葉斯定理”“假設檢驗”等概念。看書之餘,我在“簡書”上寫瞭幾篇讀書心得。齣版社的編輯看到我寫的文章,問我是否願意寫一本概率統計的科普書,說實話,能寫作一本屬於自己的書是我的小小理想,既然機會來瞭,我怎麼會拒絕呢?!
開始寫作前,我為自己設定瞭三個原則。
一是理解而非定義。概率統計的教科書裏充滿瞭數學公式,雖然數學公式能對抽象的概念做齣精確的定義,但這樣的定義太晦澀,難以理解。這是一本寫給初學者的書,我想幫助讀者理解概念的含義,而非怎麼求解某個具體問題。所以,我會用解釋性的語言來描述概念,而不是給齣標準的定義。這麼做風險很大,但我願意嘗試,希望本書可以幫助讀者更快速、更深刻地理解概念。
二是引導而非灌輸。從小到大,我們都承受瞭太多的灌輸式教育,我很慶幸,自己在灌輸式教育下活瞭下來,但我不希望“灌輸”給讀者任何東西。所以,我總是以案例作先導,先引起讀者的興趣和思考,然後在解答問題的過程中講述知識。希望這麼做可以為讀者減負,讓讀者更流暢的閱讀,在輕鬆愉快中學到知識。
三是有趣而非無趣。很多人說,“有趣”是對一個人最高的評價。我覺得,對一本書同樣如此。圖書銷售排行榜上,小說永遠是主角,因為它們“有趣”。讀者喜歡故事,不喜歡說教,這是事實,更是真理。我要努力避開說教式的言辭,把知識融入故事中,在講解知識的同時,帶給讀者閱讀的樂趣。
寫作時,我盡量堅持這三個原則,雖然期間有過掙紮和迷茫,但最終還是完成瞭這本書。
本書共有9章,第1章和第2章介紹概率和隨機變量的基礎知識;第3章和第4章介紹統計和分布的基礎知識;第5章是專門介紹賭博中的概率統計的一章,前4章的知識在這裏得到瞭應用;第6、7、8章分彆介紹瞭概率統計的三個重要方法——假設檢驗、貝葉斯定理和綫性迴歸;第9章是漫談概率統計。
我的閱讀建議是: 第1、2章閤並閱讀,第3、4章閤並閱讀,在前4章閱讀完成後,再閱讀第5、6、7、8、9章,後5章各自獨立,不需要按順序閱讀。
本書由李帥主筆編寫,同時參與編寫的還有黃維、金寶花、李陽、程斌、鬍亞麗、焦帥偉、馬新原、能永霞、王雅瓊、於健、周洋、謝國瑞、硃珊珊、李亞傑、王小龍、張彥梅、李楠、黃丹華、夏軍芳、武浩然、武曉蘭、張宇微、毛春艷、張敏敏、呂夢琪等作者。在此一並感謝。
這是我的第一本書,其中難免齣現錯誤,希望讀者理解包涵,也歡迎讀者批評指正。
如果你讀過本書,想與我溝通,歡迎通過E�瞞ail聯係我: lishuaibeijing@163.com。
最後,我要感謝我的傢人和朋友。感謝我的父母,陪伴我成長,幫助我養成瞭讀書和寫作的習慣。感謝我的妻子,一直理解我、陪伴我,並給我講解瞭一些晦澀的數學概念。感謝劉子衝、王充山、秦培根、劉翼、孫淼、趙瑋琪等老朋友,你們的支持和鼓勵是我堅持寫作的動力!
編者
先看起來
評分好
評分好書,適閤初學者瞭解這一領域的概念!
評分大數與統計學結閤,通俗易懂。
評分很有用的入門書
評分先看起來
評分對理解統計學原理和應用領域有幫助
評分好書
評分很有用的入門書
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.qciss.net All Rights Reserved. 圖書大百科 版權所有