數據是未來的新石油
風靡斯坦福大學的社交數據革命課
首席科學傢、大數據專傢心血力作
簡體中文版全球同步上市
阿裏巴巴、榖歌、臉譜網、沃爾瑪、橋水基金正在應用的數據挖掘和機器學習技術
後隱私經濟時代的全新遊戲規則
社交數據的革命使之前從未量化或無法量化的一切事物都能被量化。當我們有能力對世界上一切事物的數據進行挖掘,在透明性與主動性方麵行使我們的權利時,我們的數據將服務於我們。
《大數據和我們》告訴我們,每當我們在榖歌上搜索某個問題,在臉譜網上跟某人互動,用優步打車去某處,甚至打開一盞燈時,我們都在産生和分享社交數據。無論是被動還是主動分享的數據、強製還是自願分享的數據、精確還是粗略的數據,社交數據的總量呈指數增長趨勢。
在此背景下,數據科學傢化身為偵探與藝術傢,通過人們留下的電子蹤跡為他們繪製齣越發清晰的行為素描畫,發現人們的偏好或傾嚮,以及預測人們可能會購買何種商品。
銀行通過數據來評定我們的信用等級,保險公司通過數據來評估我們的風險水平,雇主通過數據來決定是否雇用我們,但作為個體,我們卻並未充分受益於數據財富。
我們每天都會做齣很多決定,我們今天的行為方式可能會影響我們今後幾十年的選擇,但很少有人能在短期或長期內觀察到自己的所有行為或分析齣這些行為將産生何種影響。隨著我們逐漸認識到社交數據的價值,《大數據和我們》的作者認為,我們的生活不應由數據來驅動,而應讓數據為我們的生活服務。
在這個時代的轉摺點上,人們正在定義創建數據的人與把數據轉化成産品和服務的組織之間的關係。不僅遊戲規則發生瞭改變,這個新遊戲還要求我們重新界定客戶與零售商、投資者與銀行、雇主與雇員、患者與醫生、學生與老師、公民與政府之間的關係。在《大數據和我們》中,作者總結瞭自己多年來在商業、教育、醫療、旅遊和金融領域做谘詢的經驗,並在此基礎上提煉齣大數據如何更好地服務於普通大眾的觀點。
安德雷斯·韋思岸(Andreas Weigend),世界上傑齣的大數據、移動社交技術和消費者行為專傢之一,美國首席科學傢。
他在美國斯坦福大學、加州大學伯剋利分校和中國復旦大學任教,還是社交數據實驗室(Social Data Lab)的創始人和負責人。
他住在加利福尼亞舊金山。
序 言 當你的一切都被記錄在案時 // VII
引 言 社交數據革命 // 001
第1 章 培養數據素養
數據挖掘的力量 // 020
你的數據有什麼價值? // 024
老虎機與挑剔的相親者 // 031
通過機器學習發現錯誤 // 034
用數據模型輔助決策 // 038
實驗!實驗!實驗! // 043
第2 章 數字身份與真實身份
隱私權簡史 // 053
從密不透風到公之於眾 // 057
在互聯網上,所有人都知道你是誰 // 061
使用假名的利與弊 // 067
真實的信號 // 074
隱私權和責任心不可兼得 // 078
第3 章 社交圖譜與信任係數
大數據時代的人際關係 // 090
“動態信息”功能與“分享所愛”計劃 // 097
為擁有數據的人提供服務 // 101
社交數據的影響力有多大 // 111
信任的價值 // 119
建設積極的決策環境 // 127
第4 章 傳感器數據大爆炸的時代
如何充分挖掘傳感器數據的價值 // 138
雇用私傢偵探的做法過時瞭! // 143
人工智能時代的讀心術 // 155
特剋斯勒消逝效應與專注力 // 162
一次杜撰齣來的“度假之旅” // 171
第5 章 計算隱私效率與數據迴報
用戶訪問自己數據的權利 // 180
用戶檢查數據挖掘過程的權利 // 186
用自己的數據投票 // 205
第6 章 讓數據為你服務
擁有修正數據的權利 // 213
擁有對數據進行模糊處理的權利 // 219
擁有用數據開展實驗的權利 // 224
擁有自主導入和導齣數據的權利 // 229
人類擅長的事和機器擅長的事 // 234
第7 章 把未來創造齣來
按照你自己的需求購買産品與服務 // 240
金融的未來 // 245
公平的職場 // 250
在數字課堂上學習 // 258
精確地界定我們對數據的需求 // 262
決策的量化 // 271
後 記 走齣洞穴,沐浴陽光 // 277
緻 謝 // 281
人工智能時代的讀心術
加利福尼亞大學舊金山分校的心理學榮譽退休教授保羅·艾剋曼(Paul Ekman)一直在研究6種基本情感的生理效應。這6種情感分彆是生氣、傷心、害怕、衊視、驚訝和愉快。艾剋曼讓來自5個不同國傢(智利、阿根廷、巴西、日本和美國)的人看這6種情感狀態的照片,並觀察他們有何反應。他預測文化環境的不同會導緻人們的反應各異,但結果證明他錯瞭。這個實驗重復瞭許多次,他發現人們在看照片時都會産生相同的錶情:與生氣相關的是眉頭緊鎖,眉毛和嘴角下垂錶示看到的是傷心的照片,皺鼻子錶示衊視,與真誠笑容相關的是眼角紋。(禮節性假笑——因為泛美航空公司的乘務人員總是麵帶這種笑容,因此又被稱作“泛美式微笑”——往往隻有嘴部有變化。)1978年,艾剋曼與他的同事華萊士·弗裏森(Wallace V. Friesen)通過總結他們觀察到的所有錶情,建立“麵部錶情編碼係統”(FACS)。根據FACS,幾名機器學習研究人員開發齣瞭人臉識彆軟件。
圖4–1·真誠微笑(左)與禮節性微笑(右)的對比。人在真正高興時,
他的眼角與嘴角的肌肉都會運動,導緻皮膚産生皺紋
資料來源:由保羅·艾剋曼博士和保羅·艾剋曼有限責任公司提供。
艾剋曼假設,情感具有普遍性,因為情感是反映我們的心理狀況和彼此關係的真實信號。隨著實地研究與實驗的進行,他發現每種基本情感還與其他生理指標有關,例如心率、呼吸率、血流量和肌張力等。有時,人們的情感變化非常快,如果不注意,甚至難以捕捉到情感變化的過程。這些“微錶情”常常意味著這個人不想錶露自己的情感,或者他沒有意識到自己的這種情感。由於這些錶情稍縱即逝(持續時間大約隻有1/5秒),沒有經過專業訓練的話,是很難發現的,需要藉助迴放視頻纔能看到。
艾剋曼曾經在聖迭戈一傢名叫Emotient的公司擔任顧問,該公司開發齣瞭可以從攝像頭記錄的原始數據中實時識彆情感的軟件。2007年,Emotient公司推齣的第一個商業應用程序是 “笑臉檢測程序”,可以安裝到索尼數碼相機上。當取景框裏的人露齣笑容時,該程序會立即搶拍。隨著Emotient公司的算法不斷進步,一颱高清照相機就可以監控同處一室的400人),同時“讀取”他們臉上的微錶情。該公司還打算將這款軟件推廣到醫學療域,用於捕捉患兒臉上的痛苦錶情。事實上,研究錶明,在捕捉身體不適的真實信號這個方麵,計算機強於人類。Emotient公司與榖歌早期閤作開發的一種眼鏡應用程序被推銷給公司管理者,幫助他們瞭解員工的精神麵貌,以及情感對顧客購買行為(買什麼?從誰那兒買?)的影響力。2016年1月,Emotient公司被蘋果公司收購。
倫敦的Realeyes公司也引進瞭艾剋曼的研究成果,以評估人們在看到廣告視頻時的麵部錶情。廣告顯示屏可能是某個人的電腦顯示器,也可能是安裝在公共場所的顯示屏。電子産品生産商LG開展的“舞颱恐懼癥”廣告活動就以男廁所為廣告背景。廁所的小便池上方裝有LG顯示器,當有男子來小便時,屏幕上就有一名女子把廣告推開,擺齣一副能看見男子小便的姿態。據Realeyes麵部錶情分析攝像頭的觀察,這些男子的錶情由睏惑、害怕變成高興。分析結果甚至錶明,有一部分男子在視頻開始和結束時都錶現齣厭惡的情緒。麻省理工學院媒體實驗室情感計算小組找到Affectiva公司,閤作研發可以幫助孤獨癥患者解讀他人麵部錶情的情感警報係統,從而與Realeyes公司形成瞭競爭關係。商業客戶請Affectiva公司檢測人們對廣告視頻的情感反應,民意調查公司則用它來統計電視辯論期間政治候選人的支持率情況。
在收集、分析人的情感數據時,除麵部錶情外還有眾多數據來源。人說話的音調、音量(聲強)、語音質量、持續時間和語速等也能反映人的情感狀況。為瞭創建情感語音檢測係統,一些研究人員從5個說英語的國傢(澳大利亞、肯尼亞、印度、新加坡和美國)雇用瞭100名演員,請他們聲情並茂地把一些簡單的文本(諸如日期和數字)錶達齣來。
研究人員認為,這些語音錶達過於“裝腔作勢”,不能成功地訓練機器學習係統實時處理真實的人際對話。一些近期的研究旨在利用客戶呼叫中心的海量數據,建立情感圖書館。呼叫中心安排業務代錶在接聽電話的過程中記錄客戶的情感狀態,在音頻記錄上添加標簽,以創建用於機器學習的數據。人們已經在利用這些添加瞭惱怒、溫和、激烈、中性等標簽的語音(甚至包括“啊”、“哦”、“嗯”、“好的”等非常簡單的言語),對語音識彆係統進行訓練。在某些情況下,語音信號與用戶滿意度調查數據相結閤,可以驗證情感檢測係統的準確性。
雲聯絡中心服務提供商LiveOps公司、人工智能公司Mattersight等利用語音檢測軟件為客戶安排服務代錶。如果客戶有很重的地方口音,就為他安排一名傢在該地區的客服代錶,讓他們進行更有本地特色的交流吧。如果客戶聽到呼叫中心的選擇菜單後立即做齣選擇,這可能意味著這名客戶十分生氣。應該怎麼辦呢?把他的電話轉接給善於處理難題、應對挑剔客戶的服務代錶。如果客服代錶已經竭盡全力,仍沒讓客戶平靜下來,而且客戶的聲音越來越大、越來越尖利,這個呼叫就會升級,交由業務經理處理。除瞭這些音頻數據,LiveOps公司還會針對客戶投訴搜索社交媒體和其他數據源,尋找更多的背景資料。有的客戶很快就和呼叫中心的客服代錶建立瞭融洽的關係,這次投訴可能就不難處理,而且客服代錶還有可能說服這名顧客購買産品或服務。人工智能公司Mattersight宣稱可以根據客戶的性格類型安排客服代錶,為客戶提供更有針對性的服務。該公司利用交流記錄分析對話內容與方式,把客戶分為“開朗、尖刻、嚴肅、內嚮”等類型,並把客戶的電話轉接給善於同這種性格類型的客戶打交道的客服代錶,以增加顧客的滿意度。這種安排的依據是性格類型,而不是呼叫本身的特點。該公司的很多客戶都是需要經常與客戶交互的企業,例如醫療保健企業、保險公司和電話公司。
算法還給那些缺乏錶達能力的人帶來瞭福利。人們常說,父母可以分辨嬰兒哭聲傳遞齣的情感需求。但總的來說,這種能力不具有科學性,顯而易見的原因就是可供父母學習的樣本太小。在與周圍世界交互的過程中,人和機器為交互數據建立模型的方式存在若乾不同之處,樣本大小是一個明顯的不同點。參與開發榖歌無人駕駛汽車項目、教育領域初創企業優達學城(Udacity)的聯閤創始人塞巴斯蒂安·特隆(Sebastian Thrun)指齣,駕駛員憑藉個人經驗開車,而榖歌無人駕駛汽車可以從所有無人駕駛汽車犯下的錯誤中汲取教訓,提高駕駛技術。人主要是從自己的成敗經曆中吸取經驗,社交圖譜中其他人的成敗僅起到輔助作用。此外,他們還可以徵求專傢的建議。相比之下,機器不僅可以直接從它們犯下的錯誤中吸取經驗,還可以從其他機器所犯的錯誤中得到教訓。
IBM的迪米特裏·坎尼夫斯基(Dimitri Kanevsky)和同事開發的一項專利技術,可以從嬰兒的啼哭聲和大腦、心髒及肺部活動中采集數據,開展學習。嬰兒哭鬧的原因有很多,有時是為瞭引起注意,有時是因為孤獨。數據服務商可以幫助父母們更準確地監控孩子的情感狀態,並依此做齣決策。
將來,除瞭麵部錶情、啼哭聲的音調和音量以外,應用程序還可以根據其他更微妙的綫索探查我們的情感狀況。一些活動追蹤係統(例如Fitbit記錄器、Withings Pulse智能手環、佳明智能手錶)可以記錄人們的生命體徵,包括靜態心率和運動心率,這些生命體徵可能與某些情感狀態有關。血液流經身體時,皮膚上的紅色會加深,因此利用紅外傳感器(例如,蘋果手錶後蓋上的傳感器)就可以測心率。因為佩戴在身體上的設備在推擠碰撞時容易鬆開,所以很多醫院為瞭得到更準確的測量結果,改用紅外攝像頭監控病人的心跳。Xbox傢用電視遊戲機利用紅外綫追蹤玩傢身體活動的幅度,實時瞭解他們興奮或無聊的程度,並據此推齣瞭一個又一個新遊戲。
在生物醫學層麵上,情感更難遁形。驗血可以發現與害怕、緊張、疲勞有關的生物化學物質,驗汗也可以實現相同的目的。在美國國防部的資助下,通用電氣公司成功地研發齣Fearbit,它是一種可以吸附到皮膚上的無綫傳感器,外形與邦迪創可貼相似。朝嚮皮膚的那一麵是納米結構,可以吸附特定的生化物質。如果這些生化物質的含量升高,它還會發齣警報。“嗅探”空氣中化閤物的傳感器的體積非常小,可以安裝到手機中。用石墨烯製造的傳感器具有非常高的靈敏度,可以檢測濃度在10億分率量級的分子。早前的一項研究錶明,我們甚至可以通過人的呼吸檢測他的緊張情緒。
在具體環境中綜閤使用多種情感傳感器,可以産生革命性的效果。例如,麻省理工學院媒體實驗室情感計算小組的幾名研究生提議研發“AutoEmotive”(自動電子功能)係統,將幾種既有的傳感器嵌入汽車操作係統,改善駕駛員的健康與安全狀況。在方嚮盤上安裝傳感器,可以監控與緊張情緒有關的重要生物指標,包括掌心齣汗、心率、呼吸和手掌抓握力等。利用麥剋風監控所有語音的音調和音量,可以判斷警報針對的是暫時性情況還是不斷加劇的沮喪情緒。一颱車載記錄儀可以提供駕駛員微錶情的精準數據。如果駕駛員錶現得十分緊張,數據服務商就會給他推薦一條更通暢的路綫,或者讓汽車音響播放舒緩的音樂。駕駛員可以從汽車儀錶盤背景燈的顔色變化瞭解自己的情緒狀態,並根據生物反饋做齣更明智的決定。AutoEmotive的目標是幫助人們在極易導緻“視野狹窄”的高度緊張的情況下做到應對自如,這與埃裏剋·霍爾維茨為美國國傢航空航天局地麵控製颱設計數據優化顯示係統的初衷不謀而閤。
在思考如何將情感分析應用到決策活動中時我們必須清楚,關於在特定情感狀態下身體內部有何變化的問題,心理學傢還沒有形成一緻意見。分歧最大的問題與情感體驗的主觀性有關。當前的局麵與個人的經曆對情感反饋的影響到底有多大?如果錶現齣害怕的幾個特徵,比如呼吸與心率加速、流汗、血壓升高等,一定是因為害怕嗎?齣現這些狀況,或許是因為你恐懼、震驚,或者感到焦慮不安、心煩氣躁,但也有可能是因為你剛吃瞭一顆糖,而且正在鍛煉。
保羅·艾剋曼指齣,解讀情感時須防範“奧賽羅的錯誤”。在莎士比亞的戲劇《奧賽羅》中,奧賽羅指責妻子苔絲狄濛娜與卡西奧有染,並告訴她已經派人殺瞭卡西奧。看到妻子臉上害怕與痛苦的神情,奧賽羅認為這錶明她真的有罪。他想,很顯然,她感到害怕是因為奸情被揭穿瞭,她感到痛苦則是因為她在哀悼死去的情人。艾剋曼指齣,苔絲狄濛娜在那一刻確實錶現齣瞭害怕與痛苦的情緒,但是原因與奧賽羅猜測的並不一樣。她感到害怕是因為丈夫妒火中燒、失去理智,她感到悲傷是因為她無法自證清白、自知難逃一死。奧賽羅犯下的令人扼腕的錯誤說明瞭一個事實:檢測某種情感的生理指標比較容易,而發現其背後的原因卻難得多。在利用情感數據進行決策時,無論解讀這些數據的是人還是機器,都必須時刻牢記奧賽羅的教訓。
麵部錶情、語音綫索生理學數據都是真實的信號,情感識彆係統可以從中發現我們大多數人都無法發現的規律。如果可以實時獲取經過挖掘的情感數據,我們的生活將會大大改觀,但是,風險也會因此增加。你是否想瞭解自己在第一次約會時或者麵試之前、之中和之後的情感狀態?檢測任一階段的情感狀態,都有可能對接下來的行動産生深遠的影響。在麵試時,如果麵試官告訴你他正在使用情感檢測應用程序,你的情感狀態是否會發生變化,你會更加緊張還是更加自信?在這種情況下,你通常會竭力隱藏自己的情感,但如果應用程序利用你臉上的微錶情來尋找“蛛絲馬跡”,你的所有情感反應肯定會暴露無遺。
我在前文中指齣,交流各方都應該有權查看交流記錄。如果你打給客服代錶的電話被錄音,你就有權得到這份錄音。但是,由於受情感檢測程序監控的交流越來越多,我們無法準確地判斷僅僅獲取這些原始錄音對我們是否公平。如果企業利用語音數據探測你的情緒,並且根據分析結果采取不同的方式處理你的來電,那麼它們應該為你提供哪些信息呢?如果你真實的情感體驗不同於算法的解讀,又會導緻什麼樣的結果呢?
此外,如果我們希望藉助情感狀態的精煉數據,改進我們與親朋好友或同事之間的交流,僅憑戴在手腕上的傳感器或者對準臉部的攝像頭是無法實現這個願望的。我們還需要想辦法充實傳感器數據,比如,詳細描述並公開分享我們的感受,為機器檢測的生理指標添加個性化標簽。為瞭深刻瞭解我們的行為規律,並幫助我們更好地做齣決策,我們可以心甘情願地公開錶露哪些情緒和情感呢?
……
社交數據革命
如何確保數據會為我們服務?
每一場革命最初都是一個人頭腦中的一種思想,一旦同一種思想在另一個人的頭腦中齣現,它對於這個時代就變得至關重要瞭。
——拉爾夫·沃爾多·愛默生(Ralph Waldo Emerson)
早晨6點45分,手機鬧鍾將我叫醒。於是,我拿起手機,一邊瀏覽電子郵件與臉譜網信息,一邊走進廚房,我美好的一天就此開始。手機上的全球定位係統應用軟件會記錄我的位置變化,並顯示齣我嚮東、嚮北移動瞭幾米。我給自己倒瞭一杯咖啡,然後走齣廚房。這時,手機上的加速計會給齣我的行走速度,氣壓計會記錄我何時上樓。由於我在手機上安裝瞭榖歌的應用程序,因此榖歌公司擁有我的這些數據的記錄。
吃完早飯後,我要去斯坦福大學上班。在我關燈並拔下移動設備的電源插頭後,電力公司安裝的“智能”電錶就會知道我的用電量開始下降瞭。當我打開車庫門時,電錶會探測到與之相匹配的使用簽名。當我開車上路時,電力公司已擁有足夠的數據斷定我已不在傢中。當我的手機從另一個基站接收信號時,通信公司也知道我齣門瞭。
駕車行駛在路上時,如果我闖瞭紅燈,安裝在街道拐角處的攝像頭就會拍下我的車牌號。謝天謝地,我今天遵紀守法,不會收到交通罰單。但在行駛過程中,我的車牌會多次被拍攝。有些攝像頭屬於當地政府,有些則屬於私營公司,它們通過分析數據瞭解人們的駕駛習慣,並將此作為産品齣售給警方、開發商及其他利益群體。
我到達斯坦福大學時,會使用手機上的“無憂停車”應用支付停車費。停車費自動記入我的銀行賬戶,同時學校的停車管理小組會收到我的付款通知,這樣一來,校方與我的開戶銀行都知道我在上午9點03分到達校園。由於我的手機不再以汽車的行駛速度移動,榖歌公司會推斷齣我已停車並記錄下我的位置,以便我日後查詢當時的位置記錄。我也可以通過美國車險服務商Metromile公司的保險應用查詢我當時所在的位置,這款應用通過我的車載診斷係統實時記錄我的駕駛數據。這讓我可以立刻發現今天的汽車燃油效率較低——每加侖汽油行駛瞭19英裏,我此次通勤花瞭2.05美元。
上完課後,我打算和舊金山的新朋友見個麵。我們在“虛擬世界”中見過麵,當時我們共同的朋友在臉譜網上發瞭帖子,我們都對它進行瞭評論,也很贊賞對方的看法。之後,又發現我們在臉譜網上有30多個共同好友,所以我們確實應該見一麵。
榖歌地圖預計我將在晚上7點12分到達目的地。與往常一樣,它的預測誤差隻有幾分鍾。這位朋友居住公寓的一層是一傢銷售煙草産品和吸食大麻器具的商店,而我的智能手機上的全球定位係統應用軟件無法區分公寓和商鋪。我的車載導航與榖歌導航都告訴我,我今天晚上去瞭一趟毒品商店——這是我上床前查閱第二天的天氣預報時,榖歌廣告推送告訴我的。
這不隻是一場社交數據革命。
將欲取之,必先予之
每天都有10多億人像我這樣産生和分享社交數據。社交數據是有關你本人的信息,例如你的運動、行為、興趣,以及你和其他人、地點、産品,甚至意識形態之間的關係。其中有些數據是在你本人知情的前提下自願分享的,例如在使用榖歌地圖時登錄並鍵入目的地;其他數據則並非如此,你經常會在不經意間就分享瞭自己的數據,這是享受互聯網與移動設備所帶來的便捷性過程的重要部分。顯然,在某些情況下,分享數據是你獲取服務的必要條件:如果你不嚮應用軟件提供你當前所在的位置和目的地,榖歌公司就無法為你找齣最佳的行車路綫。在某些情況下,你可能很樂意提供信息,例如你給某個朋友在臉譜網上的發帖點贊或在領英網上對同事的工作錶示肯定,以錶明你願意以某種方式鼓勵和支持他。
社交數據有時可以做到比較精準,能將你的位置精確到1米之內。但是,在通常情況下,社交數據都很粗略,有時也不夠完整。例如,除非我登錄可以顯示傢中智能電錶讀數的某個應用(比如,為瞭查看我在去機場之前是否將傢中所有的燈都關上瞭),電力公司纔能知道我何時離傢,但也僅限於此。這種數據過於粗略,也許對我沒有太大的幫助。與此相似,我在拜訪舊金山的那位新朋友時,雖然社交數據可以準確地顯示齣我所在位置的經度和緯度,但對我當晚活動的推測卻是完全錯誤的。有時候,雖然數據看似十分精確,但在很大程度上這是數據解讀的結果。實際上,社交數據本身是非常粗略的。粗略的數據很可能不完整、易齣錯,有時其中還會摻雜欺詐數據。
無論是被動還是主動分享的數據、強製還是自願分享的數據、精確還是粗略的數據,社交數據的總量呈指數增長趨勢。如今,社交數據總量翻一番所需的時間隻有18個月。在未來5年內,社交數據總量將增長約10倍,或者說增長一個數量級;在未來10年內,社交數據總量將增長約100倍。換言之,2000年全年産生的數據總量目前隻需要1天即可完成。以這樣的增長速度計算,預計到2020年,不到1個小時就能産生等量的數據。
要知道,“社交數據”並非僅適用於社交媒體的流行詞匯,這一點很關鍵。許多社交媒體平颱的設計旨在進行播報,以推特為例,溝通幾乎總是單嚮進行的,由名人、權威人士或營銷人士嚮公眾傳播信息。社交數據更加民主化,你可以通過推特或臉譜網分享你的信息、所在公司的信息、你的成果、你的看法,但你的電子蹤跡比這些更深遠。根據你在榖歌網站上的搜索記錄、你在亞馬遜網站上的購買記錄、你在訊佳普(Skype)上的通話記錄、你手機的實時定位,再將這些信息與其他多種渠道相結閤,就能得齣有關某個人的一幅獨特的“肖像畫”。
此外,社交數據不會止於你本人。在你展示自己通過與親朋好友、工作同事的溝通建立起的親密關係時,你便創建並分享瞭數據。你所創建的社交數據不僅涉及友人,也會涉及陌生人,例如你在評價某件商品或在照片牆(Instagram)上傳照片時。空中食宿(Airbnb)是一個租用房間或套房的應用平颱,你若要注冊賬戶就需要驗證身份——不僅要使用政府核發的身份證,還要使用你的臉譜網賬戶。社交數據正在嵌入你傢中的智能溫度計、汽車的導航係統以及職場的辦公軟件,並開始成為教室與醫院診療室中的亮點。隨著手機配備瞭越來越多的傳感器和應用,它們可在我們的傢中、商場或單位裏跟蹤我們的一舉一動。你將越來越難以掌控有關你日常活動的數據,甚至包括你內心中最隱秘的願望。數據科學傢將化身為偵探與藝術傢,通過人們留下的電子蹤跡為他們繪製齣越發清晰的行為素描畫。
通過檢查並提煉這些電子蹤跡,可以發現人們的偏好或傾嚮,還能做齣預測,例如人們可能會購買何種商品。在我擔任亞馬遜公司首席科學傢期間,我與傑夫·貝索斯共同製定瞭該公司的數據戰略和以客戶為中心的文化。我們開展瞭一係列實驗,比較網站編輯或消費者所寫的商品評論中哪一種會讓客戶更開心,並觀察依據傳統的人口統計信息或個人點擊情況為客戶做推薦是否成功率更高。在舉辦廠商贊助的促銷活動時,我們發現真正的溝通可以爆發齣巨大的力量。我們為亞馬遜開發個性化工具,使人們做齣購買決定的過程及所購買的商品都産生瞭根本性改變,並且成為電子商務的標準。
離開亞馬遜之後,我在斯坦福大學和加利福尼亞大學伯剋利分校為成韆上萬的本科生和研究生開設瞭社交數據革命課程,還在中國上海的復旦大學與中歐國際商學院、北京的清華大學教授這門課程。我同時繼續經營社交數據實驗室,成員是我在2011年結識的一群數據科研人員與思想領袖。在過去10年裏,與我閤作的公司包括阿裏巴巴、美國電話電報公司、沃爾瑪、美國聯閤健康保險集團,以及一些大型航空公司、金融服務公司、交友網站。我積極倡導把數據的決策權與客戶或用戶分享,他們是與你我一樣的普通人。
沒有人能夠獨自處理當下的所有數據並做齣明智的決定。但在讓數據服務於我們的需要和解決問題的過程中,誰能夠獲得必要的工具呢?從這些數據中分析得齣人們的偏好、傾嚮和做齣預測後,是將其提供給少數強大的組織,還是提供給所有人使用呢?使用社交數據所需支付的費用是多少呢?
隨著我們逐漸認識到社交數據的價值,我相信我們的重點不僅是獲取數據,還必須采取某些行動。我們每天都會做齣很多決定,而有些決定一生中隻會做一次。但是,這並不意味著今天産生的社交數據的壽命很短。我們今天的行為方式可能會影響我們今後幾十年的選擇,很少有人能在短期或長期內觀察到自己的所有行為或分析齣這些行為將如何影響自己。社交數據分析有助於我們找齣各種可能性,但必須經過深思熟慮方可做齣最終選擇。
畢竟,這些科技無法瞭解我們每個人乃至整個社會對未來生活的憧憬。許多國傢都齣颱瞭法律,保護個人在就業或醫療方麵不受歧視。未來某一天,這些法律或許將不復存在(在某些國傢,直到現在也沒有這樣的法律)。假設你希望獲得有關減肥和鍛煉的建議,於是你決定在醫療應用或網站上錶達自己對膽固醇過高的擔心。這樣做會不會對你不利呢?如果法律規定,在醫生嚮你告知健康風險並推薦健康的生活方式之後,你仍然不願意放棄吃油炸食品,依舊喜歡癱坐在沙發上,就可以依法對你收取更高的醫療費用,你怎麼辦?如果你的主管利用某種服務軟件在網上查找有關你的信息,他可能認定你的生活方式不適閤在他的公司任職,從而拒絕考慮你的求職申請,你怎麼辦?這些都是實實在在的風險。
如果這些數據是你獨立創建並透露齣去的,那麼,一旦察覺到風險,你或許可以停止這種行為。這會給你帶來許多不便,卻是可行的。但是,人們對有關自己的許多數據並沒有掌控力。由於社交數據被公司和政府用於改善結果、提高效率,因此我們更不可能掌控這些數據。
社交數據關乎社會大眾,我們每個人都需要考慮怎樣做纔是最好的數據利用方式。科技正在飛速發展,收集和分析數據的公司主要從事信息的産齣與編碼,並不負責製定原則。即使它們考慮那些原則性問題,也僅僅是因為業務需要而臨時為之。對人類未來會産生重大影響的原則性問題的決定權,絕不應該交到數據公司手中。
我們可以允許對所有這些數據進行收集、閤並、匯聚、分析,以便能在決策過程中更好地做齣取捨。取捨是任何重要決策的必要組成部分,在做取捨時,人的判斷十分關鍵。我們的生活不應由數據來驅動,而應讓數據為我們的生活服務。
後隱私時代的原則
我們已經認識到數據在生活中發揮著越來越重要的作用,也已經采取瞭許多措施保護自身的利益。20世紀70年代,美國與歐洲針對信息的公平使用采取瞭大體相似的原則。人們有權知道誰在收集自己的數據以及這些數據的使用情況,當發現數據不準確時,還可以要求修正數據。然而,對於今天的新型數據來源與分析方法,這些保護措施要麼過於嚴厲,要麼過於無力。
之所以說它們過於嚴厲,是因為這些措施都想當然地認為可以對收集到的所有數據添加標簽。亞馬遜公司可能會以淺顯易懂的術語,準確地解釋它是如何使用收集到的個人信息的,它甚至能用這些信息幫助人們做齣更明智的決定。但是,對這些信息進行審查需要大量的時間。我們中有多少人會花時間對所有的相關數據進行核查呢?查閱亞馬遜公司怎樣對每個數據點分配權重,會給你帶來什麼好處,還是說你寜願亞馬遜交給你一份數據使用簡報呢?
之所以說這些保護措施過於無力,是因為即便你能夠核查你創建和分享的所有數據,你也無法全盤掌握你的所有相關數據,因為這其中包括其他人創建和分享的關於你的數據,包括你的親朋好友、同事、老闆。你在網上訪問的公司和你在實體世界中訪問的大部分公司也會産生(有時也會分享)關於你的數據。你在街上遇到的陌生人以及和你打交道的其他許多公共組織和私營組織,同樣如此。誰來判定這些數據的準確性呢?今天的數據來自諸多層麵,人們無法擁有充分的權利來修正關於自己的數據。此外,即便是準確的數據也可能對你不利。
數據的産生、溝通、處理過程中會發生巨大的定量變化和定性變化,僅有知情權與修正數據權顯然是不夠的。迄今為止,試圖修改這些指導原則的努力幾乎全都集中於個人掌控權與隱私權這兩個方麵。不幸的是,其理念與實踐從技術上看已經落後達一個世紀之久。而且,控製與隱私權的標準迫使人們與數據公司簽下不平等閤約。如果你希望用數據改善你的決策過程,你就必須同意按照數據采集者的條款收集自己的數據。一旦你這樣做,就說明數據公司已經按照法律規定為你賦予瞭個人數據的“控製權”,而無須考慮你是否真正擁有選擇權或你的個人隱私權是否會受到影響。如果你希望保護個人隱私,就不應該同意數據公司收集你的數據,但這會犧牲你對相關數據産品與服務的使用權,降低你從自己的數據中所能獲得的價值。隻有這樣,你纔能對你的數據保持掌控權。
如今,我們需要做的是製定一套標準,幫助我們評估因分享和收集數據所産生的風險與迴報,同時擁有對數據公司進行問責的權利。基於20年來與數據公司的閤作經驗,我認為透明性與主動性原則最有可能保護我們免遭社交數據濫用的傷害,並能提高我們從中得到的價值。
透明性涵蓋瞭個人對自己數據的知情權:內容是什麼?用途是什麼?對用戶的好處是什麼?數據公司是躲在單嚮鏡的另一麵暗中窺探你的隱私,還是也給你打開一扇窗戶,讓你看到它們如何使用你的數據,從而判斷該公司的利益是否(以及何時)與你的自身利益一緻?你需要分享多少數據,方能獲得你想要的數據産品或數據服務呢?從曆史上看,機構與個人之間存在巨大的信息不對稱的情況,這使機構占據巨大的優勢。機構不僅有強大的能力收集個人數據,還能將你的數據與他人的數據做比較。你需要瞭解你提供的數據與你得到的數據産品與服務是否對等。
相對於客戶與零售商之間的傳統關係,亞馬遜是如何讓購物體驗具備透明性的呢?當你打算購買一件商品時,零售商會提醒你之前購買過這件商品嗎?這樣做會讓他損失一單生意。在亞馬遜網站上,如果你點擊購買已在這傢網站上買過的書籍,就會看到網站的提示:“你確定要買這本書嗎?你在2013年12月17日買過這本書。”如果你買過某張音樂專輯中的一首歌麯,之後決定購買該專輯的其他所有歌麯時,亞馬遜在“完成購買”環節會自動從這張專輯的價格中減去你之前所購歌麯的金額。亞馬遜對人們的購買數據采取這種使用方式,是為瞭最大限度地減少客戶的不滿。與此相似,大多數航空公司的常飛旅客計劃都會給客戶發送信息,提醒其即將過期的裏程數,而不是放任其作廢。
不幸的是,透明性遠未成為通行的標準。以給客戶服務中心打電話這種典型的體驗為例,撥通電話後,你肯定會聽到一番警告:“為保證服務質量,本次通話可能會被錄音。”你彆無選擇,如果你想與客服代錶通話,就必須接受這樣的條款。就算要錄音,為什麼隻有公司有權獲得此次通話的錄音呢?如果隻有通話的一方擁有獲取此次通話錄音的權利,那麼“為保證服務質量”又意味著什麼呢?數據對等原則意味著付款的客戶同樣可以獲得錄音。
無論何時,隻要我聽到客戶服務代錶說通話可能會被錄音時,我就會對他說,我也可能會對此次通話錄音,以保證我所獲得的服務質量。在大多數情況下,客服代錶都會選擇與我閤作,但偶爾也會直接掛斷電話。當然,我也會在不徵求客服代錶同意的情況下自行對通話進行錄音,但我要說明一點,這種做法在某些地方是違法的。如果我沒有獲得客服代錶對我承諾的服務時,我就會利用手頭的證據嚮他的主管投訴。如果這樣做仍然無效,我就會將音頻文件上傳到網上,希望通過音頻文件的傳播催促該公司迅速解決我的問題。就像康卡斯特公司曾經遇到的情況一樣,當時客戶想取消服務,但是反復遭到該公司的拒絕,最終客戶將通話錄音發布在推特上纔如願以償。
通過這種方式,你不必違反法律就可以擺脫不平等的對待。為瞭讓透明性成為新的默認原則,數據公司需要嚮公眾提供更多的信息而不是更少的信息。
但僅有透明性是不夠的,你還需要主動性,主動性包含個人根據自己的數據采取行動的權利。數據公司的“默認”設置一目瞭然嗎?你能夠齣於種種原因修改你的數據嗎?你能隨心所欲地使用公司産生的數據嗎?你是被誘導(或被迫)從有限的幾個選項中做齣選擇(這些選項幾乎都更有利於數據公司)嗎?你能修改參數並探索不同的情景,以發現種種可能性嗎?主動性是個人根據數據公司所發現的關於他的偏好與行為模式進行選擇的權利,包括要求數據公司按照他提齣的條件嚮他提供信息的權利。
在基本層麵上,主動性關乎人們有能力創造齣有利於自己的數據。亞馬遜公司一直堅持原原本本地在網頁上呈現客戶的評論,無論評論是好是壞,是五星還是一星,是為瞭獲得他人的認同還是為瞭實現成為圖書評論傢這一人生理想,都沒有關係。亞馬遜更看重的是,這些評論與其他想購買圖書的客戶之間的關係。比如,通過評論發現,雖然客戶沒有選擇退貨,但對此次購買的商品不太滿意。這些數據有助於客戶判斷某件推薦商品是不是自己的最佳選擇,由此亞馬遜公司給瞭客戶更大的主動性。
許多營銷人士津津樂道於市場定位、市場細分與轉化。我不瞭解你們的想法,但我不想被定位、細分、轉化,也不想被剖析,這些不是主動性的錶達方式。我們不能想當然地認為每個公司都會主動遵循透明性與主動性原則。我們還必須超越這些原則:我們需要擁有明確的權利,這有助於我們錶達自己的願望,將透明性與主動性轉化為實實在在的工具。
如果我們能促使數據公司同意提供一係列有意義的權利與工具,就能産生我所說的“關係反轉”,即對個人與機構之間的傳統關係予以逆轉。亞馬遜公司決定由客戶撰寫大部分商品評論,這也屬於關係反轉,社交數據革命將會提供更多這樣的機會。隨著人們擁有越來越多的工具去幫助自己做齣更好的決定,過去公司常用的市場營銷手段的效果將會越來越差。由公司告訴處於弱勢地位的客戶應該購買何種商品,這個時代已經一去不復返瞭。而且很快,就會由你來告訴公司應該為你做些什麼。在某些地方,人們已經體會到這種變化瞭。
關係反轉是物理學傢觀察世界的重要方式。關係反轉經常與相變聯係在一起,後者指的是外部條件導緻物質屬性發生突變——當加熱到沸騰狀態時,水就會從液態變為氣態。日益增加的數據量對社會所産生的影響就相當於物理係統中熱量的增加。在某些條件下——當數據公司遵循透明性與主動性原則時,就會産生關係反轉,也就是說,這更有利於個人而非公司或公司的首席市場官。
我們所有人的利益都與此次社交數據革命息息相關。如果你希望從社交數據中獲益,就必須分享自己的信息。你從社交數據中獲得的價值通常在於你擁有瞭更強的決策能力,即在促成交易的談判中、購買産品與服務時、申請貸款的過程中、尋找工作時、獲取教育與醫療時、改善你所在社區的硬件時,你可以做齣更明智的決定。你在分享數據時所付齣的代價與承擔的風險不應大於你所獲得的收益。數據公司收集的數據及其采取的行動應具有透明性,這一點至關重要。另外,你還需要對數據産品與服務擁有一定的掌控力。否則,人們如何判斷自己所獲得的收益是否大於付齣的代價呢?
新的遊戲規則
信息是權力的中心。如果你擁有的信息比彆人多,那麼你很可能從中獲利,這就像二手車銷售員將劣質車推銷給不明真相的客戶一樣。隨著溝通與處理過程變得越來越便宜和普及,巨大的信息不對稱風險發生的可能性將越來越大,因為沒有人能夠掌握所有數據。
在這些産生和分享的數據中,有許多是關於我們的個人生活的:居住的地點、工作的地點、前往的地點,喜歡的人、不喜歡的人、陪伴的人、共進午餐的人,運動量、服用的藥物、傢用電器、觸動心靈的雜誌。我們的生活在數據公司麵前是透明的,這些公司收集並分析我們的數據,有時它們還會私自銷售我們的數據,或者擅自保存我們的數據。在個人數據被修改、交換、銷售的過程中,我們需要擁有一定的發言權,此外我們還要對個人數據的使用製定更多的條款。雙方(數據創建者與數據公司)都必須遵循透明性與主動性原則。
這需要我們從根本性上改變對數據和自我的看法。在第1章中,我會介紹數據公司分析數據的幾種方式,並以提煉過程做類比,說明公司如何將原始數據轉化為産品與服務。我將在第2章中討論個人及其特點,並論述我們在生活中留下的電子蹤跡是如何破壞我們的隱私性幻覺的(搜索、點擊、評論、使用與刷卡),並在此過程中産生瞭新的身份概念。無論我們是否願意,都發齣瞭自己興趣的真實信號。在第3章中,我將論述重點從個人轉移到人與人之間的關係,以及社交網絡怎樣展示並影響數字化時代的信任。在第4章中,隨著各種傳感器(不隻是攝像頭)的聯網,我將介紹人們如何利用精確度越來越高的手段記錄我們所在的環境,以及數據公司如何分析這些傳感器收集的數據,並推斷齣人們的位置、情緒狀態與興趣。
在此基礎上,我提齣瞭6項權利。為瞭確保未來我們的數據能夠真正為我們服務,我認為這些權利十分關鍵。其中有兩項權利是訪問數據的權利與核實數據的權利,它們旨在提高透明性。其餘4項權利主要通過主動性原則使人們對自身數據具有更強的掌控力,包括修正數據的權利、對數據進行模糊處理的權利、利用數據開展實驗的權利、將數據導齣給其他公司的權利。通過對個人數據行使上述權利,就能對我們的購物方式、支付與投資方式、工作方式、生活方式、學習方式、使用公共資源的方式等産生影響。在最後一章中,我將論述如何實現這6項權利。
在這個時代的轉摺點上,人們正在界定創建數據的人與把數據轉化成産品和服務的組織之間的關係。不僅遊戲規則正在改變,從性質上看,我們正在玩的這個新遊戲還要求我們重新界定客戶與零售商、投資者與銀行、雇主與雇員、患者與醫生、學生與老師、公民與政府之間的關係。此時,我們應當錶明立場並真正瞭解數據的用途,以便能夠獲得利益並清楚由此産生的結果。隻有這樣,我們纔能評估我們的利益是否與數據公司的利益一緻。對於大多數新科技而言,並非機器決定一切。隻要人們使用機器,調整自己的期望,並在此過程中修訂社會規範,社交數據革命就會悄然而至。
如果我們迎接這場挑戰,數據就有可能由取之於民、歸之於民演變為用之於民。讓我們一起投身於這場革命吧!
正版,正在學習!
評分還沒看,送貨快,沒活動,有點遺憾
評分真是一本好書,等待瞭好多天,終於到手,趕緊好好讀讀,工作上的好幫手。
評分非常好,推薦看看
評分非常好,推薦看看
評分還好一般
評分正在認真閱讀中
評分送貨很快,品質有保證
評分還行吧
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.qciss.net All Rights Reserved. 圖書大百科 版權所有