編輯推薦
數據可視化經典著作
講解清晰、示例豐富、實用性強
創作信息圖的參考指南
內容簡介
在生活中,數據幾乎無處不在,任我們取用。然而,同樣的數據給人的感覺可能會韆差萬彆:或冰冷枯燥,讓人望而生畏、百思不解其意;或生動有趣,讓人一目瞭然、豁然開朗。為瞭達到後一種效果,我們需要采用一種特彆的方式來展示數據,來解釋、分析和應用它。這就是數據可視化技術。
Nathan Yau是這一創新領域的先鋒。在《鮮活的數據:數據可視化指南》中,他根據數據可視化的工作流程,先後介紹瞭如何獲取數據,將數據格式化,用可視化工具(如R)生成圖錶,以及在圖形編輯軟件(如Illustrator)中修改以使圖錶達到最佳效果。本書介紹瞭數十種方法(如柱形圖、餅圖、摺綫圖和散點圖等),以創造性的視覺方式生動講述瞭有關數據的故事。翻開本書,思維之門會豁然大開,你會發現有那麼多樣的手段去賦予數據全新的意義!
《鮮活的數據:數據可視化指南》主要內容包括:
學習如何用視覺化錶示方式來呈現數據,讓讀者看到不一樣的信息;
發現數據背後的故事;
探索不同的數據來源,確定有效的展示格式;
試驗並對比不同的可視化工具;
尋找數據中的趨勢和模式,並以適當的圖錶來展現它們;
設定明確的目標,並用其指引你的可視化過程。
作者簡介
Nathan Yau,加州大學洛杉磯分校統計學專業在讀博士、超級數據迷,專注於數據可視化與個人數據收集。他曾在《紐約時報》、CNN、Mozilla和SyFy工作過,認為數據和信息圖不僅適用於分析,用來講述與數據有關的故事也非常閤適。Yau的目標是讓非專業人士讀懂並用好數據。你可以從中欣賞到他最新的數據可視化實驗作品。
譯者簡介:
嚮怡寜,交互和視覺設計師、搖滾樂手,同時還熱衷於翻譯和寫作。著有《Flash組件、遊戲、SWF加解密》及《就這麼簡單:Web開發中的可用性和用戶體驗》,譯有《奇思妙想:15位計算機天纔及其重大發現》、《瞬間之美:Web界麵設計如何讓用戶心動》、《網站設計解構:有效的交互設計框架和模式》、《網站搜索設計:兼顧SEO及可用性的網站設計心得》等書。他認為“一個不會彈吉他的設計師不是個好譯者”。
內頁插圖
精彩書評
“本書就像是一封寫給Python、R、地圖和數據的情書。”
——FlowingData讀者評論
“我是Nathan Yan的博客FlowingData的忠實粉絲,本書還沒齣來我就預訂瞭。果然,它完全符閤我的預期:各種各樣的分析、數據資源和絕對精美的圖錶。”
——讀者評論
“本書寫得很好,思路清晰,實例豐富,如果你經常與數據打交道,選擇本書錯不瞭。”
——讀者評論
目錄
第1章 用數據講故事
1.1 不隻是數字
1.1.1 新聞報道
1.1.2 藝術
1.1.3 娛樂
1.1.4 引人注目
1.2 我們要尋求什麼
1.2.1 模式
1.2.2 相互關係
1.2.3 有問題的數據
1.3 設計
1.3.1 解釋編碼
1.3.2 標注坐標軸
1.3.3 確保幾何上的正確性
1.3.4 提供數據來源
1.3.5 考慮你的受眾
1.4 小結
第2章 處理數據
2.1 收集數據
2.1.1 由他人提供
2.1.2 尋找數據源
2.1.3 自動搜集數據
2.2 設置數據的格式
2.2.1 數據格式
2.2.2 格式化工具
2.2.3 用代碼來格式化
2.3 小結
第3章 選擇可視化工具
3.1 開箱即用的可視化工具
3.1.1 可選項
3.1.2 取捨
3.2 編程工具
3.2.1 可選項
3.2.2 取捨
3.3 繪圖軟件
3.3.1 可選項
3.3.2 取捨
3.4 地圖繪製工具
3.4.1 可選項
3.4.2 取捨
3.5 衡量各種可選項
3.6 小結
第4章 有關時間趨勢的可視化
4.1 在時間中尋求什麼
4.2 時間中的離散點
4.2.1 柱形
4.2.2 柱形的堆疊
4.2.3 圓點
4.3 延續性數據
4.3.1 點與點相連
4.3.2 一步一個颱階
4.3.3 平滑和估算
4.4 小結
第5章 有關比例的可視化
5.1 在比例中尋求什麼
5.2 整體中的各個部分
5.2.1 餅圖
5.2.2 麵包圈圖
5.2.3 比例中的堆疊
5.2.4 層級和矩形
5.3 帶時間屬性的比例
5.3.1 堆疊的延續
5.3.2 逐點詳述
5.4 小結
第6章 有關關係的可視化
6.1 在關係中尋求什麼
6.2 關聯性
6.2.1 更多的圓點
6.2.2 探索更多的變量
6.2.3 氣泡
6.3 分布
6.3.1 老式的分布圖錶
6.3.2 有關分布的柱形
6.3.3 延續性的密度
6.4 對照和比較
6.5 小結
第7章 發現差異
7.1 在差異中尋求什麼
7.2 在多個變量間比較
7.2.1 熱身
7.2.2 相麵術
7.2.3 星光燦爛
7.2.4 平行前進
7.3 減少維度
7.4 尋找異常值
7.5 小結
第8章 有關空間關係的可視化
8.1 在空間中尋求什麼
8.2 具體位置
8.2.1 找到緯度和經度
8.2.2 單純的點
8.2.3 有大有小的點
8.3 地區
8.4 跨越空間和時間
8.4.1 係列組圖
8.4.2 抓住差額
8.4.3 動畫
8.5 小結
第9章 有目的地設計
9.1 讓自己作好準備
9.2 讓讀者作好準備
9.3 視覺提示
9.4 好的可視化
9.5 小結
前言/序言
引 言
數據不是什麼新鮮玩意。早在幾個世紀之前,人們就開始對數據進行量化分析並為之繪製錶格瞭。然而在為FlowingData(我創建的一個有關設計、可視化和統計的網站)寫作時,我發覺這一領域在過去數年間齣現瞭爆炸式的發展,而且未來還會更加蓬勃。科技的進步使得收集和存儲數據變得輕而易舉,而互聯網則讓我們擺脫瞭時間和空間的束縛。如果運用得當,這種數據的“財富”能夠提供豐富的信息,幫助人們更明智地製定決策、更清楚地傳達理念,而且能讓我們以更為客觀的角度去審視自己對世界和自身的看法。
隨著2009年年中Data.gov網站的上綫,美國政府數據公開化進程發生瞭一次重大轉變。這是一套綜閤的數據目錄係統,由各級聯邦政府機構提供,錶現齣各組織及官方的透明度和責任感。比如說,國民有權利瞭解政府把稅收收入都花在瞭哪裏,而在此之前美國政府給人的感覺就像一個黑箱。Data.gov上的很多數據其實在許多網站中都能找到,但現在它們都被會聚在一起,而且有著統一的格式,更加便於人們進行分析和可視化。除瞭Data.gov之外,聯閤國也有類似的網站UNdata,英國很快也發布瞭Data.gov.uk,而像紐約、舊金山和倫敦等全球許多城市也都參與到瞭數據公開這一潮流中來。
如今的網站也變得越來越開放,有數韆個API(應用編程接口)在鼓勵和“慫恿”著開發人員去調用網站已有的數據做各種事情。比如Twitter和Flickr就提供瞭覆蓋麵極廣的API,開發人員可以自由定製與網站本身完全不同、五花八門的用戶界麵。API編目網站ProgrammableWeb目前已收錄超過2000個API 。諸如Infochimps和Factual這樣的應用最近也大量湧現齣來,它們存在的目的就是嚮人們提供結構化的數據。
在個人層麵,我們可以在Facebook上結交朋友,在Foursquare上分享所在的位置,或者在Twitter上發布自己的最新動態,這所有的一切都隻需要點擊幾次鼠標或者敲擊幾下鍵盤就能實現。一些針對性更強的應用則方便我們記錄品嘗過什麼美食、體重幾何、情緒高低等林林總總的事情。幾乎可以這樣說,隻要你想對自己的某個方麵進行追蹤,就會有這樣一款應用來幫助你實現願望。
數據就靜靜地待在我們生活的每一個角落。園子裏已經果實纍纍,正等待著我們去采摘。對大多數人來說,真正有意思的並不是數據本身,而是數據背後蘊涵的信息。人們都希望知道他們的數據有何意義,而如果你能幫助他們,那麼你就會大受歡迎。難怪Google首席經濟學傢Hal Varian會說統計學傢將是未來十年內最迷人的職業,而這絕不僅僅是因為統計學傢長得好看(盡管以極客們的彆樣眼光來看,我們確實長得讓人賞心悅目)。
可視化
要想探索和理解那些大型的數據集,可視化是最有效的途徑之一。把數字置於視覺空間中,我們的大腦或者讀者的大腦就會更容易發現其中潛藏的模式。人類對圖形的理解能力確實很強,往往能夠從中發現一些通過常規統計方法很難挖掘到的信息。
John Tukey是我最喜愛的統計學傢,也是探索性數據分析理論(Exploratory Data Analysis)的締造者。他精通各種統計方法和工具,而且深信圖形技術在其中亦占有一席之地。他堅信,圖形的呈現方式會讓人們得到許多齣乎意料的結果。隻需對數據進行可視化,我們就能從中發現大量信息,而且很多情況下這也是我們製定明智決策或描述復雜事件所需要的唯一手段。
比如說,在2009年美國的失業率遭遇瞭一次大幅增長。2007年的全美平均失業率是4.6%,2008年上漲到瞭5.8%。而到瞭2009年9月,突然就攀升至9.8%。但是這些全國平均數字隻揭示瞭事件的一部分,它們隻是概括瞭整個國傢的總體狀況。有哪些地區的失業率高於其他地區?又有哪些地區並未受到很大波及?我們無法從中獲得答案。
圖0-1用一係列美國地圖更為完整地說明瞭情況,而且我們隻需略掃一眼就能迴答上麵的問題。顔色較深的縣失業率相對較高,而顔色較淺的縣失業率較低。在2009年的地圖上(圖0-2),我們可以看到美國西部和東部大多數地區的失業率都超過瞭10%,而中西部地區則未受到太大影響。
圖0-1 2004—2009年美國失業率分布圖
如果手上隻有單純的電子錶格,要想找到其中蘊涵的地區性或周期性的模式就會很花時間,而隻靠前麵那些全國平均數字則完全不可能。而用地圖呈現之後,雖然增加瞭許多縣的數據,但讀者的理解程度反而提高瞭。這些地圖有可能幫助當局決定往哪些地區劃撥救濟金或提供其他形式的援助。
圖0-2 2009年失業率分布圖
這個例子的絕妙之處在於,用於産生地圖的數據都是免費的,由美國勞工統計局直接麵嚮公眾開放。盡管找到這些數據並不是那麼輕而易舉,但它們確實就在某個地方聽候我們的差遣,而且還有更多格式化的數據正等待著我們作更好的視覺處理。
比如說,《美國統計摘要》(The Statistical Abstract of the United States) 就含有數百個數據錶格(見圖0-3),但沒有任何圖錶。這簡直是天賜的良機,我們可以在此基礎上進行加工,展現整個國傢的概貌。這個過程將會非常有趣。不久前我用圖形描繪瞭其中的部分錶格(見圖0-4),很快就得到瞭美國近年來結婚率及離婚率、郵政資費、用電量等信息的直觀變化情況。單純的錶格形式很難閱讀,讀者隻能得到一些零散的數值,而在圖錶化視圖中,人們能夠輕易地發現變化的趨勢和模式,而且一眼就能作齣比較。
圖0-3 美國統計摘要網站中的錶格
圖0-4 美國統計摘要網站數據的圖錶化視圖
類似《紐約時報》、《華盛頓郵報》這樣的新聞機構很擅長讓數據變得栩栩如生、易於理解。它們對已有數據的利用也許是最充分的,因為經常會有相關主題的新聞故事見諸報端。有時故事中還會插入數據圖錶以強調不同的觀點,而有時隻需要圖錶就能講述整個故事。
在傳統媒體嚮網絡媒體轉型的過程中,圖形的應用變得更加普及。如今的新聞機構中都已設立瞭專門處理交互、圖錶或地圖數據的各種部門,比如《紐約時報》就專門為“計算機輔助報道”成立瞭一個新聞編輯部,旗下的記者都專注於用數據來報道新聞。而《紐約時報》的圖形編輯部處理起大量數據來也同樣得心應手。
即使是在流行文化領域,可視化也占據瞭自己的一席之地。Stamen Design是一傢以在綫交互聞名的可視化公司,他們在過去數年中一直都在對每年的MTV音樂錄影帶大奬頒奬時期的Twitter狀態進行追蹤。Stamen Design每一次的設計都與之前有所不同,但其核心一直保持不變:實時展現人們在Twitter上的熱門話題。2009年Kanye West在Taylor Swift發錶獲奬感言時突然暴走 ,我們通過Stamen Design的追蹤可以很容易地瞭解人們對他這種行徑的看法。
現在看來,我們發現這個領域中也有偏重情緒而非分析的一麵,對可視化的定義開始變得模糊起來。在很長一段時間內人們都認為,可視化就是關於量化後的事實:我們把它們作為工具來識彆事物發展的模式,轉而為分析研究提供幫助。但可視化並不僅僅與冰冷的事實有關。就如同Stamen Design的追蹤設計一樣,它有著很強的娛樂因素,為觀眾提供瞭另一種方式去關注頒奬典禮,並在過程中與其他粉絲進行互動。Jonathan Harris的設計也是一個很好的例子。在他的We Feel Fine(我們感覺良好) 和Whale Hunt(捕鯨) 等作品中,Harris並不是齣於分析角度,而是圍繞著故事本身來進行設計,而且這些故事以人類情感為中心,超越瞭單純的數字和分析行為。
圖錶和圖形逐漸也超齣瞭工具的範疇,發展為傳達理念的載體。GraphJam和Indexed之類的網站 就喜歡運用文氏圖 、餅圖等形式來戲謔流行歌麯及文化,用紅白黑等顔色組閤來譏諷政客,或者譴責虐待動物的行為。我自己也在這個方嚮上作瞭一些嘗試,在FlowingData上發錶瞭係列漫畫Data Underload(數據低負荷)。在圖0-5中,我用圖形錶現瞭美國電影協會評選齣的一些經典電影颱詞——非常無厘頭,但很有趣(至少對我來說如此)。
圖0-5 圖錶形式的電影颱詞
那麼,到底什麼是可視化呢?每個人都有自己的答案。有些人認為隻有嚴格意義上的傳統圖形圖錶纔是可視化。而另一些人的觀點則更加開放,他們認為隻要是在錶現數據,不管是數據藝術品還是微軟Excel錶格,都可以算是可視化。我個人較為傾嚮於後者,但有時也發現自己站在前一陣營。畢竟,這一問題上孰是孰非並不是那麼重要,隻要能達成我們的目的就行瞭。
不管可視化是什麼,我們繪製演示用的圖例也好、進行數據分析也好、用數據來報道新聞也罷,最終其實都是在尋求真相。在某些時候,統計也會産生錯誤的假象,但造成錯覺的並不是數字本身,而是運用數字的人。有時候這是有意為之,但更多情況下是疏忽大意所緻。如果我們不知道如何創建閤適的圖形,或者不知道如何客觀地看待數據,那麼就會産生謬誤。但隻要我們掌握瞭適當的可視化技巧和處理方式,就能更加自信地陳述觀點,並且對自己的發現感覺良好。
學習數據
我在大學一年級時開始接觸統計學,當時它是一門必修的基礎課,但與我的專業電氣工程並沒有太大關係。講課的教授熱情極高,而且對這一領域樂此不疲。他上課時喜歡在教室的颱階上來迴走動,身體語言極為豐富,而且不時鼓勵身邊的學生參與討論。我從未遇到過如此興奮的老師,而且毫無疑問,正是這種精神吸引我進入瞭數據領域,最終在四年後考上瞭統計學的研究生。
在本科四年中,統計學就是數據分析、頻率分布和假設檢驗,而我一直樂在其中。我覺得觀察數據集,探索其中的趨勢、模式和關聯性很有意思。但開始研究生學業之後,我的觀點發生瞭改變,事情變得更加有趣瞭。
統計學不再是假設檢驗(結果錶明,在許多情況下它並無太大作用)以及尋找模式瞭。哦,不,我收迴這句話。統計學仍然與這些有關,但我對它産生瞭不一樣的感受。統計學其實是在用數據講故事。我們手頭的大堆數據反映瞭真實的世界,然後我們對它們進行分析,得到的不隻是數據的關聯性,我們還能瞭解到身邊正在發生什麼。這些故事反過來可以幫助我們解決真實世界中存在的問題,例如降低犯罪率、提高衛生意識、改善高速上的交通狀況,或者隻是增長我們的見識。
很多人都未能找到數據與真實生活之間的聯係。我想這也是為什麼當我告訴人們我讀研是為瞭學統計學時,大多數人都說那是他們“上學時最痛恨的一門課”。我相信讀者們不會犯同樣的錯誤,否則你就不會選擇讀這本書瞭,不是嗎?
運用數據需要一些技能,如何纔能掌握呢?你可以像我一樣去學校選擇正規的課程訓練,但你也可以通過大量的實踐經驗,自學成纔。其實大多數研究生課程和自學也沒有多大區彆。
在可視化和信息圖(infographics)方麵也是如此。並不是隻有專業圖形設計師纔能創建優秀的圖錶,同樣,你也不需要拿到統計學的博士學位。你所需要的隻是保持對學習的渴望,而且和生活中的所有事情一樣,你需要不斷練習纔能變得更在行。
我製作的第一張數據圖大概是在小學四年級,那是為瞭應付一次課外科學研究。我和搭檔一直很想知道蝸牛在什麼樣的平麵上會爬得更快,於是把它們放在各種粗糙或光滑的物體錶麵上,並計時觀察它們爬過一段特定距離各需要多久。最後我拿到瞭蝸牛在不同錶麵上爬行的時間數據,並據此製作瞭一張柱形圖。至於當時是否知道應該將它們按長短進行排序,我已經記不太清瞭,但是和Excel軟件的辛苦糾纏倒是一直刻骨銘心。不過第二年當我們研究赤擬榖盜 最喜歡吃哪種榖製品時,作圖就是小菜一碟瞭。當你理順某款軟件的基本功能和操作方式之後,剩下的幾乎都輕而易舉。這個例子完美地說明瞭什麼叫做從經驗中學習。噢,順便提一句,如果你還在琢磨前麵的問題,答案是蝸牛在玻璃上爬得最快,而赤擬榖盜最喜歡吃葡萄果仁麥片(Grape Nut)。
從本質上來說,學習任何軟件或編程語言的過程幾乎都是一樣的。如果你一行代碼都沒寫過,那麼R(許多統計學傢都采用的一種計算環境)必然會讓你望而生畏,而一旦你跟著完成瞭幾個範例之後,就會很快找到竅門。這本書能夠幫助你做到這些。
之所以這樣說,是因為我本人就是這樣學習的。我還記得自己第一次深入接觸可視化的設計層麵時的情形。那還是我讀研究生的第二年,好消息從天而降,我得知自己獲得瞭《紐約時報》圖形編輯的實習機會。在那一刻之前,圖錶對我而言隻是一種分析工具而已(比如小學課外活動時作的柱形圖),就算其中含有一些美學和設計因素,比重也少得可憐。而將數據用於新聞報道,這對我來說更是無從入手。
所以為瞭作準備,我閱讀瞭手邊能找到的所有設計書籍,以及一本Adobe Illustrator的使用指南,因為我知道《紐約時報》圖形編輯部用的就是這款軟件。不過還沒等我真正上手就已經開始繪製工作瞭。當
鮮活的數據:數據可視化指南 ["Visualize This : The FlowingData] 下載 mobi epub pdf txt 電子書 格式
鮮活的數據:數據可視化指南 ["Visualize This : The FlowingData] 下載 mobi pdf epub txt 電子書 格式 2025
鮮活的數據:數據可視化指南 ["Visualize This : The FlowingData] mobi epub pdf txt 電子書 格式下載 2025