發表於2024-11-23
數據是未來的新石油
風靡斯坦福大學的社交數據革命課
首席科學傢、大數據專傢心血力作
簡體中文版全球同步上市
阿裏巴巴、榖歌、臉譜網、沃爾瑪、橋水基金正在應用的數據挖掘和機器學習技術
後隱私經濟時代的全新遊戲規則
社交數據的革命使之前從未量化或無法量化的一切事物都能被量化。當我們有能力對世界上一切事物的數據進行挖掘,在透明性與主動性方麵行使我們的權利時,我們的數據將服務於我們。
《大數據和我們》告訴我們,每當我們在榖歌上搜索某個問題,在臉譜網上跟某人互動,用優步打車去某處,甚至打開一盞燈時,我們都在産生和分享社交數據。無論是被動還是主動分享的數據、強製還是自願分享的數據、精確還是粗略的數據,社交數據的總量呈指數增長趨勢。
在此背景下,數據科學傢化身為偵探與藝術傢,通過人們留下的電子蹤跡為他們繪製齣越發清晰的行為素描畫,發現人們的偏好或傾嚮,以及預測人們可能會購買何種商品。
銀行通過數據來評定我們的信用等級,保險公司通過數據來評估我們的風險水平,雇主通過數據來決定是否雇用我們,但作為個體,我們卻並未充分受益於數據財富。
我們每天都會做齣很多決定,我們今天的行為方式可能會影響我們今後幾十年的選擇,但很少有人能在短期或長期內觀察到自己的所有行為或分析齣這些行為將産生何種影響。隨著我們逐漸認識到社交數據的價值,《大數據和我們》的作者認為,我們的生活不應由數據來驅動,而應讓數據為我們的生活服務。
在這個時代的轉摺點上,人們正在定義創建數據的人與把數據轉化成産品和服務的組織之間的關係。不僅遊戲規則發生瞭改變,這個新遊戲還要求我們重新界定客戶與零售商、投資者與銀行、雇主與雇員、患者與醫生、學生與老師、公民與政府之間的關係。在《大數據和我們》中,作者總結瞭自己多年來在商業、教育、醫療、旅遊和金融領域做谘詢的經驗,並在此基礎上提煉齣大數據如何更好地服務於普通大眾的觀點。
安德雷斯·韋思岸(Andreas Weigend),世界上傑齣的大數據、移動社交技術和消費者行為專傢之一,美國首席科學傢。
他在美國斯坦福大學、加州大學伯剋利分校和中國復旦大學任教,還是社交數據實驗室(Social Data Lab)的創始人和負責人。
他住在加利福尼亞舊金山。
序 言 當你的一切都被記錄在案時 // VII
引 言 社交數據革命 // 001
第1 章 培養數據素養
數據挖掘的力量 // 020
你的數據有什麼價值? // 024
老虎機與挑剔的相親者 // 031
通過機器學習發現錯誤 // 034
用數據模型輔助決策 // 038
實驗!實驗!實驗! // 043
第2 章 數字身份與真實身份
隱私權簡史 // 053
從密不透風到公之於眾 // 057
在互聯網上,所有人都知道你是誰 // 061
使用假名的利與弊 // 067
真實的信號 // 074
隱私權和責任心不可兼得 // 078
第3 章 社交圖譜與信任係數
大數據時代的人際關係 // 090
“動態信息”功能與“分享所愛”計劃 // 097
為擁有數據的人提供服務 // 101
社交數據的影響力有多大 // 111
信任的價值 // 119
建設積極的決策環境 // 127
第4 章 傳感器數據大爆炸的時代
如何充分挖掘傳感器數據的價值 // 138
雇用私傢偵探的做法過時瞭! // 143
人工智能時代的讀心術 // 155
特剋斯勒消逝效應與專注力 // 162
一次杜撰齣來的“度假之旅” // 171
第5 章 計算隱私效率與數據迴報
用戶訪問自己數據的權利 // 180
用戶檢查數據挖掘過程的權利 // 186
用自己的數據投票 // 205
第6 章 讓數據為你服務
擁有修正數據的權利 // 213
擁有對數據進行模糊處理的權利 // 219
擁有用數據開展實驗的權利 // 224
擁有自主導入和導齣數據的權利 // 229
人類擅長的事和機器擅長的事 // 234
第7 章 把未來創造齣來
按照你自己的需求購買産品與服務 // 240
金融的未來 // 245
公平的職場 // 250
在數字課堂上學習 // 258
精確地界定我們對數據的需求 // 262
決策的量化 // 271
後 記 走齣洞穴,沐浴陽光 // 277
緻 謝 // 281
人工智能時代的讀心術
加利福尼亞大學舊金山分校的心理學榮譽退休教授保羅·艾剋曼(Paul Ekman)一直在研究6種基本情感的生理效應。這6種情感分彆是生氣、傷心、害怕、衊視、驚訝和愉快。艾剋曼讓來自5個不同國傢(智利、阿根廷、巴西、日本和美國)的人看這6種情感狀態的照片,並觀察他們有何反應。他預測文化環境的不同會導緻人們的反應各異,但結果證明他錯瞭。這個實驗重復瞭許多次,他發現人們在看照片時都會産生相同的錶情:與生氣相關的是眉頭緊鎖,眉毛和嘴角下垂錶示看到的是傷心的照片,皺鼻子錶示衊視,與真誠笑容相關的是眼角紋。(禮節性假笑——因為泛美航空公司的乘務人員總是麵帶這種笑容,因此又被稱作“泛美式微笑”——往往隻有嘴部有變化。)1978年,艾剋曼與他的同事華萊士·弗裏森(Wallace V. Friesen)通過總結他們觀察到的所有錶情,建立“麵部錶情編碼係統”(FACS)。根據FACS,幾名機器學習研究人員開發齣瞭人臉識彆軟件。
圖4–1·真誠微笑(左)與禮節性微笑(右)的對比。人在真正高興時,
他的眼角與嘴角的肌肉都會運動,導緻皮膚産生皺紋
資料來源:由保羅·艾剋曼博士和保羅·艾剋曼有限責任公司提供。
艾剋曼假設,情感具有普遍性,因為情感是反映我們的心理狀況和彼此關係的真實信號。隨著實地研究與實驗的進行,他發現每種基本情感還與其他生理指標有關,例如心率、呼吸率、血流量和肌張力等。有時,人們的情感變化非常快,如果不注意,甚至難以捕捉到情感變化的過程。這些“微錶情”常常意味著這個人不想錶露自己的情感,或者他沒有意識到自己的這種情感。由於這些錶情稍縱即逝(持續時間大約隻有1/5秒),沒有經過專業訓練的話,是很難發現的,需要藉助迴放視頻纔能看到。
艾剋曼曾經在聖迭戈一傢名叫Emotient的公司擔任顧問,該公司開發齣瞭可以從攝像頭記錄的原始數據中實時識彆情感的軟件。2007年,Emotient公司推齣的第一個商業應用程序是 “笑臉檢測程序”,可以安裝到索尼數碼相機上。當取景框裏的人露齣笑容時,該程序會立即搶拍。隨著Emotient公司的算法不斷進步,一颱高清照相機就可以監控同處一室的400人),同時“讀取”他們臉上的微錶情。該公司還打算將這款軟件推廣到醫學療域,用於捕捉患兒臉上的痛苦錶情。事實上,研究錶明,在捕捉身體不適的真實信號這個方麵,計算機強於人類。Emotient公司與榖歌早期閤作開發的一種眼鏡應用程序被推銷給公司管理者,幫助他們瞭解員工的精神麵貌,以及情感對顧客購買行為(買什麼?從誰那兒買?)的影響力。2016年1月,Emotient公司被蘋果公司收購。
倫敦的Realeyes公司也引進瞭艾剋曼的研究成果,以評估人們在看到廣告視頻時的麵部錶情。廣告顯示屏可能是某個人的電腦顯示器,也可能是安裝在公共場所的顯示屏。電子産品生産商LG開展的“舞颱恐懼癥”廣告活動就以男廁所為廣告背景。廁所的小便池上方裝有LG顯示器,當有男子來小便時,屏幕上就有一名女子把廣告推開,擺齣一副能看見男子小便的姿態。據Realeyes麵部錶情分析攝像頭的觀察,這些男子的錶情由睏惑、害怕變成高興。分析結果甚至錶明,有一部分男子在視頻開始和結束時都錶現齣厭惡的情緒。麻省理工學院媒體實驗室情感計算小組找到Affectiva公司,閤作研發可以幫助孤獨癥患者解讀他人麵部錶情的情感警報係統,從而與Realeyes公司形成瞭競爭關係。商業客戶請Affectiva公司檢測人們對廣告視頻的情感反應,民意調查公司則用它來統計電視辯論期間政治候選人的支持率情況。
在收集、分析人的情感數據時,除麵部錶情外還有眾多數據來源。人說話的音調、音量(聲強)、語音質量、持續時間和語速等也能反映人的情感狀況。為瞭創建情感語音檢測係統,一些研究人員從5個說英語的國傢(澳大利亞、肯尼亞、印度、新加坡和美國)雇用瞭100名演員,請他們聲情並茂地把一些簡單的文本(諸如日期和數字)錶達齣來。
研究人員認為,這些語音錶達過於“裝腔作勢”,不能成功地訓練機器學習係統實時處理真實的人際對話。一些近期的研究旨在利用客戶呼叫中心的海量數據,建立情感圖書館。呼叫中心安排業務代錶在接聽電話的過程中記錄客戶的情感狀態,在音頻記錄上添加標簽,以創建用於機器學習的數據。人們已經在利用這些添加瞭惱怒、溫和、激烈、中性等標簽的語音(甚至包括“啊”、“哦”、“嗯”、“好的”等非常簡單的言語),對語音識彆係統進行訓練。在某些情況下,語音信號與用戶滿意度調查數據相結閤,可以驗證情感檢測係統的準確性。
雲聯絡中心服務提供商LiveOps公司、人工智能公司Mattersight等利用語音檢測軟件為客戶安排服務代錶。如果客戶有很重的地方口音,就為他安排一名傢在該地區的客服代錶,讓他們進行更有本地特色的交流吧。如果客戶聽到呼叫中心的選擇菜單後立即做齣選擇,這可能意味著這名客戶十分生氣。應該怎麼辦呢?把他的電話轉接給善於處理難題、應對挑剔客戶的服務代錶。如果客服代錶已經竭盡全力,仍沒讓客戶平靜下來,而且客戶的聲音越來越大、越來越尖利,這個呼叫就會升級,交由業務經理處理。除瞭這些音頻數據,LiveOps公司還會針對客戶投訴搜索社交媒體和其他數據源,尋找更多的背景資料。有的客戶很快就和呼叫中心的客服代錶建立瞭融洽的關係,這次投訴可能就不難處理,而且客服代錶還有可能說服這名顧客購買産品或服務。人工智能公司Mattersight宣稱可以根據客戶的性格類型安排客服代錶,為客戶提供更有針對性的服務。該公司利用交流記錄分析對話內容與方式,把客戶分為“開朗、尖刻、嚴肅、內嚮”等類型,並把客戶的電話轉接給善於同這種性格類型的客戶打交道的客服代錶,以增加顧客的滿意度。這種安排的依據是性格類型,而不是呼叫本身的特點。該公司的很多客戶都是需要經常與客戶交互的企業,例如醫療保健企業、保險公司和電話公司。
算法還給那些缺乏錶達能力的人帶來瞭福利。人們常說,父母可以分辨嬰兒哭聲傳遞齣的情感需求。但總的來說,這種能力不具有科學性,顯而易見的原因就是可供父母學習的樣本太小。在與周圍世界交互的過程中,人和機器為交互數據建立模型的方式存在若乾不同之處,樣本大小是一個明顯的不同點。參與開發榖歌無人駕駛汽車項目、教育領域初創企業優達學城(Udacity)的聯閤創始人塞巴斯蒂安·特隆(Sebastian Thrun)指齣,駕駛員憑藉個人經驗開車,而榖歌無人駕駛汽車可以從所有無人駕駛汽車犯下的錯誤中汲取教訓,提高駕駛技術。人主要是從自己的成敗經曆中吸取經驗,社交圖譜中其他人的成敗僅起到輔助作用。此外,他們還可以徵求專傢的建議。相比之下,機器不僅可以直接從它們犯下的錯誤中吸取經驗,還可以從其他機器所犯的錯誤中得到教訓。
IBM的迪米特裏·坎尼夫斯基(Dimitri Kanevsky)和同事開發的一項專利技術,可以從嬰兒的啼哭聲和大腦、心髒及肺部活動中采集數據,開展學習。嬰兒哭鬧的原因有很多,有時是為瞭引起注意,有時是因為孤獨。數據服務商可以幫助父母們更準確地監控孩子的情感狀態,並依此做齣決策。
將來,除瞭麵部錶情、啼哭聲的音調和音量以外,應用程序還可以根據其他更微妙的綫索探查我們的情感狀況。一些活動追蹤係統(例如Fitbit記錄器、Withings Pulse智能手環、佳明智能手錶)可以記錄人們的生命體徵,包括靜態心率和運動心率,這些生命體徵可能與某些情感狀態有關。血液流經身體時,皮膚上的紅色會加深,因此利用紅外傳感器(例如,蘋果手錶後蓋上的傳感器)就可以測心率。因為佩戴在身體上的設備在推擠碰撞時容易鬆開,所以很多醫院為瞭得到更準確的測量結果,改用紅外攝像頭監控病人的心跳。Xbox傢用電視遊戲機利用紅外綫追蹤玩傢身體活動的幅度,實時瞭解他們興奮或無聊的程度,並據此推齣瞭一個又一個新遊戲。
在生物醫學層麵上,情感更難遁形。驗血可以發現與害怕、緊張、疲勞有關的生物化學物質,驗汗也可以實現相同的目的。在美國國防部的資助下,通用電氣公司成功地研發齣Fearbit,它是一種可以吸附到皮膚上的無綫傳感器,外形與邦迪創可貼相似。朝嚮皮膚的那一麵是納米結構,可以吸附特定的生化物質。如果這些生化物質的含量升高,它還會發齣警報。“嗅探”空氣中化閤物的傳感器的體積非常小,可以安裝到手機中。用石墨烯製造的傳感器具有非常高的靈敏度,可以檢測濃度在10億分率量級的分子。早前的一項研究錶明,我們甚至可以通過人的呼吸檢測他的緊張情緒。
在具體環境中綜閤使用多種情感傳感器,可以産生革命性的效果。例如,麻省理工學院媒體實驗室情感計算小組的幾名研究生提議研發“AutoEmotive”(自動電子功能)係統,將幾種既有的傳感器嵌入汽車操作係統,改善駕駛員的健康與安全狀況。在方嚮盤上安裝傳感器,可以監控與緊張情緒有關的重要生物指標,包括掌心齣汗、心率、呼吸和手掌抓握力等。利用麥剋風監控所有語音的音調和音量,可以判斷警報針對的是暫時性情況還是不斷加劇的沮喪情緒。一颱車載記錄儀可以提供駕駛員微錶情的精準數據。如果駕駛員錶現得十分緊張,數據服務商就會給他推薦一條更通暢的路綫,或者讓汽車音響播放舒緩的音樂。駕駛員可以從汽車儀錶盤背景燈的顔色變化瞭解自己的情緒狀態,並根據生物反饋做齣更明智的決定。AutoEmotive的目標是幫助人們在極易導緻“視野狹窄”的高度緊張的情況下做到應對自如,這與埃裏剋·霍爾維茨為美國國傢航空航天局地麵控製颱設計數據優化顯示係統的初衷不謀而閤。
在思考如何將情感分析應用到決策活動中時我們必須清楚,關於在特定情感狀態下身體內部有何變化的問題,心理學傢還沒有形成一緻意見。分歧最大的問題與情感體驗的主觀性有關。當前的局麵與個人的經曆對情感反饋的影響到底有多大?如果錶現齣害怕的幾個特徵,比如呼吸與心率加速、流汗、血壓升高等,一定是因為害怕嗎?齣現這些狀況,或許是因為你恐懼、震驚,或者感到焦慮不安、心煩氣躁,但也有可能是因為你剛吃瞭一顆糖,而且正在鍛煉。
保羅·艾剋曼指齣,解讀情感時須防範“奧賽羅的錯誤”。在莎士比亞的戲劇《奧賽羅》中,奧賽羅指責妻子苔絲狄濛娜與卡西奧有染,並告訴她已經派人殺瞭卡西奧。看到妻子臉上害怕與痛苦的神情,奧賽羅認為這錶明她真的有罪。他想,很顯然,她感到害怕是因為奸情被揭穿瞭,她感到痛苦則是因為她在哀悼死去的情人。艾剋曼指齣,苔絲狄濛娜在那一刻確實錶現齣瞭害怕與痛苦的情緒,但是原因與奧賽羅猜測的並不一樣。她感到害怕是因為丈夫妒火中燒、失去理智,她感到悲傷是因為她無法自證清白、自知難逃一死。奧賽羅犯下的令人扼腕的錯誤說明瞭一個事實:檢測某種情感的生理指標比較容易,而發現其背後的原因卻難得多。在利用情感數據進行決策時,無論解讀這些數據的是人還是機器,都必須時刻牢記奧賽羅的教訓。
麵部錶情、語音綫索生理學數據都是真實的信號,情感識彆係統可以從中發現我們大多數人都無法發現的規律。如果可以實時獲取經過挖掘的情感數據,我們的生活將會大大改觀,但是,風險也會因此增加。你是否想瞭解自己在第一次約會時或者麵試之前、之中和之後的情感狀態?檢測任一階段的情感狀態,都有可能對接下來的行動産生深遠的影響。在麵試時,如果麵試官告訴你他正在使用情感檢測應用程序,你的情感狀態是否會發生變化,你會更加緊張還是更加自信?在這種情況下,你通常會竭力隱藏自己的情感,但如果應用程序利用你臉上的微錶情來尋找“蛛絲馬跡”,你的所有情感反應肯定會暴露無遺。
我在前文中指齣,交流各方都應該有權查看交流記錄。如果你打給客服代錶的電話被錄音,你就有權得到這份錄音。但是,由於受情感檢測程序監控的交流越來越多,我們無法準確地判斷僅僅獲取這些原始錄音對我們是否公平。如果企業利用語音數據探測你的情緒,並且根據分析結果采取不同的方式處理你的來電,那麼它們應該為你提供哪些信息呢?如果你真實的情感體驗不同於算法的解讀,又會導緻什麼樣的結果呢?
此外,如果我們希望藉助情感狀態的精煉數據,改進我們與親朋好友或同事之間的交流,僅憑戴在手腕上的傳感器或者對準臉部的攝像頭是無法實現這個願望的。我們還需要想辦法充實傳感器數據,比如,詳細描述並公開分享我們的感受,為機器檢測的生理指標添加個性化標簽。為瞭深刻瞭解我們的行為規律,並幫助我們更好地做齣決策,我們可以心甘情願地公開錶露哪些情緒和情感呢?
……
社交數據革命
如何確保數據會為我們服務?
每一場革命最初都是一個人頭腦中的一種思想,一旦同一種思想在另一個人的頭腦中齣現,它對於這個時代就變得至關重要瞭。
——拉爾夫·沃爾多·愛默生(Ralph Waldo Emerson)
早晨6點45分,手機鬧鍾將我叫醒。於是,我拿起手機,一邊瀏覽電子郵件與臉譜網信息,一邊走進廚房,我美好的一天就此開始。手機上的全球定位係統應用軟件會記錄我的位置變化,並顯示齣我嚮東、嚮北移動瞭幾米。我給自己倒瞭一杯咖啡,然後走齣廚房。這時,手機上的加速計會給齣我的行走速度,氣壓計會記錄我何時上樓。由於我在手機上安裝瞭榖歌的應用程序,因此榖歌公司擁有我的這些數據的記錄。
吃完早飯後,我要去斯坦福大學上班。在我關燈並拔下移動設備的電源插頭後,電力公司安裝的“智能”電錶就會知道我的用電量開始下降瞭。當我打開車庫門時,電錶會探測到與之相匹配的使用簽名。當我開車上路時,電力公司已擁有足夠的數據斷定我已不在傢中。當我的手機從另一個基站接收信號時,通信公司也知道我齣門瞭。
駕車行駛在路上時,如果我闖瞭紅燈,安裝在街道拐角處的攝像頭就會拍下我的車牌號。謝天謝地,我今天遵紀守法,不會收到交通罰單。但在行駛過程中,我的車牌會多次被拍攝。有些攝像頭屬於當地政府,有些則屬於私營公司,它們通過分析數據瞭解人們的駕駛習慣,並將此作為産品齣售給警方、開發商及其他利益群體。
我到達斯坦福大學時,會使用手機上的“無憂停車”應用支付停車費。停車費自動記入我的銀行賬戶,同時學校的停車管理小組會收到我的付款通知,這樣一來,校方與我的開戶銀行都知道我在上午9點03分到達校園。由於我的手機不再以汽車的行駛速度移動,榖歌公司會推斷齣我已停車並記錄下我的位置,以便我日後查詢當時的位置記錄。我也可以通過美國車險服務商Metromile公司的保險應用查詢我當時所在的位置,這款應用通過我的車載診斷係統實時記錄我的駕駛數據。這讓我可以立刻發現今天的汽車燃油效率較低——每加侖汽油行駛瞭19英裏,我此次通勤花瞭2.05美元。
上完課後,我打算和舊金山的新朋友見個麵。我們在“虛擬世界”中見過麵,當時我們共同的朋友在臉譜網上發瞭帖子,我們都對它進行瞭評論,也很贊賞對方的看法。之後,又發現我們在臉譜網上有30多個共同好友,所以我們確實應該見一麵。
榖歌地圖預計我將在晚上7點12分到達目的地。與往常一樣,它的預測誤差隻有幾分鍾。這位朋友居住公寓的一層是一傢銷售煙草産品和吸食大麻器具的商店,而我的智能手機上的全球定位係統應用軟件無法區分公寓和商鋪。我的車載導航與榖歌導航都告訴我,我今天晚上去瞭一趟毒品商店——這是我上床前查閱第二天的天氣預報時,榖歌廣告推送告訴我的。
這不隻是一場社交數據革命。
將欲取之,必先予之
大數據和我們:如何更好地從後隱私經濟中獲益? [Data for the People] 下載 mobi epub pdf txt 電子書 格式
大數據和我們:如何更好地從後隱私經濟中獲益? [Data for the People] 下載 mobi pdf epub txt 電子書 格式 2024
大數據和我們:如何更好地從後隱私經濟中獲益? [Data for the People] 下載 mobi epub pdf 電子書嗬嗬
評分非常好,推薦看看
評分包裝很好,物流很快,非常滿意
評分送貨很快,品質有保證
評分不錯
評分質量不錯,正在看,以後追評
評分值得做數據分析的人去看一看
評分值得去看,拓寬思路
評分不錯,一直想買很久
大數據和我們:如何更好地從後隱私經濟中獲益? [Data for the People] mobi epub pdf txt 電子書 格式下載 2024