發表於2024-12-23
2015年度十大科技創新人物、百萬級暢銷書《大數據時代》中文版譯者、中國大數據領軍人周濤耗時三年首部個人專著橫空齣世!
領跑大數據3.0時代,大數據創新實踐的扛鼎之作!
沒有晦澀的文辭,枯燥的說教,字裏行間洋溢著濃濃的數據情懷與拳拳的責任之心。睿智瀟灑的文風背後是對大數據的一腔樸素濃厚的感情。
這是一部大數據在智慧城市、醫療、教育、金融、商業等領域的實踐筆記;更是一部為未來大數據的發展提供有可行性的路徑指南!
寬帶資本董事長田溯寜、阿裏巴巴集團執行副總裁曾鳴、香港科技大學教授楊強重磅推薦!
湛廬文化齣品。
在大數據概念如此流行的今天,為什麼要讀這本書?中國大數據領軍人、大數據創新與實踐一綫專傢、百萬級暢銷書《大數據時代》中文版譯者周濤,耗時三年,將海量真實案例披沙揀金呈現給廣大讀者。在本書中,您將看到大數據在智慧交通係統、個性化醫療、智慧學校以及金融和商業等領域的中國式創新實踐,並為未來大數據的發展提供有可行性的路徑指南。
什麼樣的人纔能在下一個時代生存和發展?大數據3.0時代我們究竟要做些什麼?數據交易如何讓數據資源成為匯聚之地?每個企業又該如何成為大數據企業?周濤教授通過真實案例告訴讀者:擁有大數據的理念,能夠掌握數據和運用數據的人和企業,纔能在“一切都被記錄,一切都被分析”的數據化時代得以生存。無論現在從事什麼行業,即便不能掌握一項特定的數據技術,瞭解大數據的理念、培養大數據的思維模式是非常重要的。學會用數據說話,用數據分析的結果來證明“哪個更好,哪個更壞”並指導我們作齣正確決策。
這不是堅硬的學術專著,而是一部柔軟的情懷之書!沒有晦澀的文辭,枯燥的說教,字裏行間洋溢著濃濃的數據情懷和拳拳的責任之心。周濤教授講述瞭很多在大數據領域努力拼搏,希望有所創新的中國人的故事,相信這些故事背後的理念、技術和精神能夠喚起更多年輕的創新者,為我們民族的復興作齣自己的貢獻。
領跑大數據3.0時代,大數據創新實踐的扛鼎之作!大數據1.0,是將自身業務上産生的大量數據,利用深入的分析使其不斷優化,優化之後的業務産生更多數據的正嚮循環。大數據2.0,是如何把自身業務的數據用來解決業務以外的其它問題,或者如何用業務以外的數據解決自身業務的問題。大數據3.0,是如何在資本和文化的催化作用下,讓數據、技術、需求和人纔等大數據創新要素融為一體。三個版本強調的不是時間上的先後順序或邏輯上的依存關係,而是就其與傳統數據應用在理念上的差異程度進行的劃分。
周濤
天纔神童。1歲說話,1歲半識字,2歲學象棋,3歲打麻將,4歲看武俠小說……26歲獲得教育部自然科學一等奬,27歲獲聘電子科技大學正教授,29歲獲得中國青年科技奬。
學術達人。在《物理報道》(Physics Reports)、《美國科學院院刊》(PNAS)、《自然通訊》(Nature Communication)等國際SCI期刊和SIGKDD、ICDM等國際學術會議發錶論文300餘篇,引用13000餘次,H指數為55。入選Elsevier全球具影響力中國學者名單(物理天文類)。
數據少帥。電子科技大學大數據研究中心主任,百萬暢銷書《大數據時代》中文譯者,全國的數據挖掘競賽平颱Data Castle的創始人,“2015年度十大科技創新人物”獲得者。
商業玩傢。白手起傢,先後創立瞭數之聯、數聯銘品、國信優易等知名大數據企業,創立和投資的大數據企業總市值過百億。
周濤是中國年輕有為的大數據專傢,他不僅做大數據研究,而且將産、學、研融為一體,在大數據創新實踐上一直卓有成效。在大數據渡過普及期的今天,更需要像周濤這樣的一綫專傢與實踐者為下一步大數據的創新指齣方嚮:大數據3.0時代我們究竟要做些什麼?數據交易如何讓數據資源成為匯聚之地?每個企業又該如何成為大數據企業?
在他這本洋溢著濃濃的數據情懷與拳拳的責任之心的著作中,我們可以看到係統而清晰的路徑指南!
——田溯寜
寬帶資本董事長
當大數據的概念如此流行的時候,難得有本好書可以把實操、理論和理念都講明白的,值得認真一讀!
——曾鳴
阿裏巴巴集團執行副總裁
文筆優雅,深入淺齣,思維縝密,思想深遠!
——楊強
香港科技大學教授
周濤用大數據分析的新視角,重新審視我們所麵對的這個世界,他帶領一群年輕人,在“大眾創業,萬眾創新”的道路上,邁齣瞭自己堅實的腳步。在大數據挖掘與分析,特彆是網絡數據的挖掘與分析方麵做齣瞭係統性的貢獻,其創新成果解決瞭重大科學問題,突破瞭關鍵核心技術,産生瞭重大社會經濟效益,顯著改善瞭百姓生活。
——“2015年度十大科技創新人物”頒奬詞
自序:在麻瓜和魔法師之間做齣選擇
Part.1 大數據時代,用數據說話
01 從萬物皆數到萬事皆數 / 005
主動或被動,我們都是數據貢獻者
一切都被記錄,一切都被分析
四大方麵,讓數據指數級增長
02 從十數九錶到數態萬韆 / 017
結構化數據
非結構化數據
03 從隔水相望到阡陌交通 / 029
地點數據
個人數據
數據與數據,1+1遠大於2
大數據創新實踐:
用購買記錄給用戶畫像
04 大數據和雲計算驅動新工業革命 / 039
計算:第三次工業革命中的新能源
數據:第三次工業革命中的新材料
證析:第三次工業革命中的先進工藝技術
個性化:大數據時代最顯著的商業特徵
大數據創新實踐:
一張失敗的公交卡
個性化醫療,安吉麗娜·硃莉和史蒂夫·喬布斯
Part.2 大數據1.0:分析
05 統計呈現洞見 / 055
抓齣非法的MCC套用
打擊“電老鼠”
“抓獲”過度醫療和騙保行為
識彆社交網絡中的垃圾用戶
新浪微博麵臨的三大問題
快遞員的通話記錄蘊藏哪些商機
付費節目點播最多的是什麼
06 關聯蘊含價值 / 075
關聯規則挖掘
協同過濾
關聯分析是尋找因果關係的利器
大數據創新實踐:
誰最關注超聲波潔麵産品
發現“一月三電號”僵屍用戶
07 預測指導決策 / 089
點擊購買類預測
基於移動軌跡的位置預測
鏈路預測
大數據預測的主流方法是什麼
大數據創新實踐:
一張信用卡逾期不還款的概率有多大
簽到記錄預測用戶的土著化指數
Part.3 大數據2.0:外化
08 尋求外部數據的幫助 / 109
從行為數據預測學生考試成績
從食堂打卡記錄中“定位”孤獨人群
從社會計量標牌洞察人力資源管理
預測離職率和升職率
行為數據讓非法集資無所遁行
09 自身數據的外部價值 / 129
45個關鍵詞實時預測流感趨勢
阿裏巴巴的“淘CPI”指數
10 機器學習,數據外化最神奇的利器 / 139
機器學習三闆斧1:特徵
機器學習三闆斧2:模型
機器學習三闆斧3:融閤
Part.4 大數據3.0:集成
11 交易市場:數據資源的匯聚地 /155
科研數據共享
政府數據開放
全國可流通數據的目錄體係
12 數據城堡:數據人纔的競技場 / 175
Kaggle,數據科學之傢
數據城堡,Kaggle模式的中國嘗試者
13 創新工廠:數據技術的嘉年華 / 185
大數據創業公司睏境
大型傳統企業信息化的難題
構建大數據挖掘平颱
建設大數據創新工廠
結束語 成為大數據企業 / 201
緻謝 / 211
[結束語]
成為大數據企業
什麼樣的企業可以稱得上是大數據企業呢?恐怕沒有人能夠給齣一個完美的答案。但是,直觀地,我們可能覺得Google 更像是一個大數據的企業,阿裏巴巴也像是一個大數據的企業,而中國銀行似乎不太像一個大數據的企業,盡管它每天也一樣浸泡在海量的數據中。除瞭具有處理大量數據的能力外,之所以Google 和阿裏巴巴更像大數據的企業,是因為他們有深入的數據分析工具,利用數據分析的結果直接指導決策,而且經常推齣基於數據分析的創新型應用,這還不包括類似於AlphaGo 這樣的奇葩。
這是我第三次以文字的形式談論如何成為一個大數據企業。一是很早以前在“科學網”上寫的一篇博客,二是為一本名為Code Halos 的書寫的序言。這個版本可以看作是上兩個版本的補充和擴充,同時也是本書一些重點內容的重述(為瞭保證本文的獨立性,可以不依賴本書直接閱讀,少量書中給齣過的文獻和注釋在本文中重復齣現瞭)。然而遺憾的是,並沒有一條放之四海皆準的通往大數據企業的康莊大道,更沒有點石成金之術可以讓一個企業快速Google化。這篇結束語隻是提齣一些看得見摸得著的建議,藏在這些建議背後的大數據理念,或許更加重要。
盡管我是用Step1、Step2 這樣的說法來列舉成為大數據企業的措施,但是這些步驟之間並沒有嚴格的邏輯上誰決定誰或者時間上誰先誰後的關係。舉個例子來說,最好的辦法當然是先有瞭數據標準再整理采集數據,這樣可以不走任何彎路,但實際上完全沒有數據,企業不會有動力做標準建設,做齣來的標準也可能是紙上談兵,完全不實用。又比如,數據管理平颱的建設能夠幫助更好地進行全麵數據化,但實際上它多半是全麵數據化戰略進行瞭一定程度之後纔開始啓動建設的。總體來說,寫在更前麵位置的,是更基礎的,但是沒有絕對的依賴關係。
Step 1. 全麵數據化
“數據化”浪潮是整個大數據時代的起點,它強調數據就是資産,記錄一切可以記錄的數據,並相信這些數據一定會在某一天産生巨大的價值。顯然,數據化是一個企業能夠通過深入數據分析,實現自身優化的基礎。
我去長虹集團調研的時候,他們告訴我,長虹電器在自己的生産綫上,通過大量傳感器,記錄生産環境的溫度、濕度、粉塵度、振動強度和噪音強度,等等,通過這些量化指標與産品質量的關聯分析,得到影響産品優品率和良品率的關鍵因素,再進一步通過控製環境因素,明顯提高瞭産品的優品率。企業在日常的經營管理過程中,通過辦公自動化係統(OA係統),很多內部即時通訊、郵件往來、工作分配和業務文件上傳下載等日誌數據都被記錄下來瞭。這些數據就是寶貴的財富!正如我在書中第三部分提到的,我們通過對這些數據的分析,能夠更精確地預測員工的離職率和升職率,更精確地預測員工和部門的績效水平,幫助企業員工通過基於關聯用戶和文本智能匹配快速找到對自己現有業務和客戶有參考價值的案例和文件,等等。但是這些提升,都是建立在企業擁有相應數據的基礎上。
總的來說,全麵數據化要求企業采集並存儲企業生産經營中的一切數據,形成企業數據資産的概念。
Step 2. 整理數據資源,建立數據標準,形成管理規範
很多企業已經有瞭一些數據儲備,或者通過第一步,開始快速積纍瞭一些數據。但是企業管理層,尤其是跨業態擁有多傢子公司的集團運營的企業,一般而言,對於自己到底有哪些數據資源是沒有清晰認識的,更拿不齣一張較完備的數據目錄。
企業要做的第一步,就是通過自頂嚮下的方式,成立數據委員會,在有必要的時候藉助外部閤作方的幫助,進行全麵的數據調研,瞭解數據資源的整體情況並建立數據資源情況更新的流程和規範。
數據資源最基本的呈現方式是一個數據目錄,我認為,企業管理團隊至少要掌握整個企業數據的3級目錄,而企業的主要技術團隊應該掌握到4級目錄。但數據資源又不僅僅是數據目錄,因為還涉及到每一個數據項的完備性、更新程度、有效性和噪音源等描述。掌握瞭數據資源後,企業要根據自己業務發展的需求,建立數據標準,使現有數據和未來所有的新增數據都能夠在同一個標準下統一管理,避免“信息係統建設越多,未來數據整閤越難”的睏境。業務中涉及大量數據的企業,尤其是涉及到用戶隱私數據、國傢安全數據和具有重要商業價值數據的企業,要形成數據全流程管理的規範,因為絕大部分數據隱私和數據安全的事件,都不是從外部由黑客或者敵方特定人員通過技術手段獲得的,而是本單位人員蓄意或無意泄露的。數據全流程管理的規範就是要做到企業能夠對數據進行分級分權限的管理,隨時瞭解敏感數據存儲在哪些服務器和終端設備上,對於敏感數據的任何處理,都能夠留下數據日誌並打上唯一的數據水印,使任何可能的數據泄露之後,都能夠追根溯源知道是哪一位員工在什麼時間點在哪一颱設備上運用何種權限下載的。對於一些操作過程中齣現的風險點,良好的管理規範也能夠實時發現,防患於未然。
Step 3. 建設數據管理平颱
有的讀者一聽到數據管理平颱,就認為是要花一大筆錢建設數據中心,把數據存起來。數據管理平颱肯定要有數據中心的存儲災備功能,但是它的作用遠不止此。
首先,數據管理平颱要為企業量身定做一套數據組織和管理的解決方案,特彆是企業各部門之間數據的共融共通,以及企業數據怎麼樣進行索引和關聯。很多大企業,各部門之間數據的格式、形態和ID係統都不一緻,部門之間無法交換數據,甚至大部分的數據錶連主鍵和外鍵都沒有,數據之間不可能形成有效的組織。這些都是數據管理平颱要做的事情。
其次,數據管理平颱是由業務所引導的,先進的流數據智能處理係統,要為業務提供直接的支撐。很多時候,數據管理平颱怎麼搭建,需要深度瞭解企業最重要的核心業務,通過有重大價值的示範性應用來牽引數據管理平颱的建設。例如針對零售類的企業,就應該形成以消費者為中心的索引和畫像係統,主要支持精準廣告、智能客服等核心業務,其次纔是以商品為中心的索引係統,主要支持物流和倉儲優化等業務。
最後,數據管理平颱的建設要量體裁衣,強調魯棒性和可擴展性,沒有必要一開始就投入大量經費。因為硬件成本的下降也很快,不用想太多半年甚至一年以後的事情,隻要架構設計閤理,到需要的時候擴充硬件是容易的。
Step 4. 建立海量數據的深入分析能力
要想建立針對多元異構、跨域關聯的海量數據,通過深度分析挖掘獲取價值的能力,主要要培養兩個方麵的能力。
第一,非結構化數據的分析處理能力。包括文本、音頻、圖像、視頻、網絡和軌跡等數據。受過傳統商務智能和統計學訓練的人,對於處理結構化數據非常在行,但是處理非結構化數據往往比較頭痛——比如分布好做抽樣,網絡怎麼進行抽樣?所以,對於常見的,特彆是和企業自身業務有密切關係的非結構化數據,一定要有一支隊伍能夠挖掘其間價值,甚至將其轉化為結構化的數據。
第二,大數據下的機器學習的能力。絕大部分我們可以想象到的應用問題,其本質都是分類或者預測問題,包括個性化推薦、精分營銷、員工績效管理、銀行信用卡徵信、小微企業貸款、生産綫控製、精準廣告和網點選擇,等等。解決這些問題最有力的武器就是機器學習!特彆是在大數據環境下,很多高階的核函數慢得不行,大量的學習都必須采用綫性學習器;而且數據非常多,很多時候都是在強噪音環境下尋找弱信號,單一分類器往往效果一般,必須要做集成學習。舉個例子,在Netflix舉辦的百萬美元電影個性化推薦大賽中,我們做過一些很優美的單模型,但是比起在比賽中最後獲勝的集成學習模型,至少從精度上來說是弱爆瞭!有的讀者要問瞭,高性能存儲計算難道不重要嗎?不得有一些懂Hadoop,懂Spark的技術高手嗎?要不要在CPU陣列裏麵加幾塊GPU甚至可編程邏輯陣列呢?這個也重要,但是企業如果實力足夠,可以采用成熟的解決方案,國際上頂尖的大數據服務商,例如IBM、HP和Intel都有不錯的方案。但是我說的上述兩點,是給企業培養人纔和能力,而且至今也沒有特彆好的成熟的解決方案,所以更重要。
最後,企業怎麼建立這樣的能力呢?首要辦法是能夠招聘到一流的大數據人纔——多花點錢和股票。第二選擇是以顯示度項目為牽引,通過外部閤作,培養自己的數據分析團隊,既解決問題,又學習能力。企業做這類的閤作,不要老想著一次性把所有東西都外包齣去,要探索新方式,看看能不能成立聯閤小組共同進行研發,多投入一些人去學習。有一些供應商,特彆是在某些方麵有專長,但是還不屬於國際一流的供應商,在發展過程中是能夠接受企業這種要求的。
Step 5. 建設外部數據的戰略儲備
企業走到這一步,就有點現代大數據企業的理念瞭,因為它不再僅僅局限於自己業務的數據瞭,開始看外麵的世界瞭——很多大數據的重大創新,都是來源於把數據放在産生數據的業務體係之外去應用。舉個例子,一個服裝企業要解決設計生産的規劃問題,僅僅看自己的銷售記錄還不夠,要不要看看淘包、天貓和京東上服裝的整體銷售,瞭解什麼款式、什麼顔色、什麼價位的服裝在哪個地區最受歡迎呢?這就需要外部數據瞭!
事實上,外部數據對於市場拓展、趨勢分析、競品分析、人纔招聘、用戶畫像和産品推薦等意義重大,而網站、論壇、社交媒體和電商平颱上聚集瞭很多有重要價值的公開數據,這些數據中的大部分可以通過分布式深網爬蟲技術直接高效采集。所以,企業要有意識地開始建立自己的外部數據戰略儲備,不要“數”到用時方恨少。一方麵,企業可以自建具備采集、清洗、存儲和索引等功能的自動化係統,自動積纍外部數據;另一方麵,企業可以通過和數據供應商閤作,得到一些亟需的數據。
Step 6. 建立數據的外部創新能力
企業很容易局限在自己的業務中不能自拔。所以,讓企業理解外麵的數據能夠幫助解決自己業務遇到的問題比較容易,因為企業主和員工們每天都在想怎麼解決這些問題,反過來,讓他們去思考自己業務的數據能不能在其他地方産生重大價值,幫到其他企業,他們就沒有那麼敏感瞭。其實,這些創新性的想法往往能夠帶來新的巨大價值。比如,Google利用自身搜索業務産生的數據,進行電價和傳染病流行情況的預測,取得瞭巨大成功。
事實上,企業通過智能終端、傳感網絡、物流記錄、網點記錄和電子商務平颱,等等,獲得的第一手數據,很多都可以用於支持在跨領域交叉銷售、環境保護、健康管理、智慧城市、精準廣告和房地價預測等方麵的創新型應用。把握住這些機會,就能夠放大企業當前業務的價值,帶來持久可觀的收益。
Step 7. 推動自身數據的開放與共享
偉大的企業懂得如何把最聰明的人集閤起來,為自己服務。
企業有瞭大量數據和一定的分析能力後,不能故步自封,而要充分藉助社會的力量,盡最大可能發揮數據潛藏的價值。Netflix曾經公開瞭包含50多萬用戶和17 770部電影的在綫評分數據,並懸賞100萬美元奬勵能夠將Netflix現有評分預測準確度提高10%的團隊。現在的Netflix已經不再是一傢電影在綫租賃公司,而是國際一流的大數據企業瞭。除瞭法律上因為安全和隱私不能開放共享的數據,相當一部分都能夠以各種方式開放齣來——這種開放會帶來更大價值!國際化的如 Kaggle(英文平颱,www.kaggle.com),國內如 DataCastle(中文平颱,ww.pkbigdata.com),都是很有影響力的大數據創新競賽平颱。舉個例子,電子科技大學大數據研究中心曾經在DataCastle上舉辦過學生成績預測的比賽,總奬金纔50 000元,卻吸引瞭915支隊伍2 000餘名參賽者參加比賽,其中200多隻隊伍來自於“985”和“211”知名高校。這裏麵最佳解決方案的思路和方法已經被應用於教育大數據定量化管理的産品模塊中瞭。最近現金巴士推齣的“微額藉貸用戶 為數據而生:大數據創新實踐 下載 mobi epub pdf txt 電子書 格式
為數據而生:大數據創新實踐 下載 mobi pdf epub txt 電子書 格式 2024
為數據而生:大數據創新實踐 下載 mobi epub pdf 電子書感覺有點空,都是概念,不太喜歡
評分就是包裝不太好,其他挺好的,如果能有一個書單明細就更好瞭,這邊送過來沒有
評分無人不是分析師,特彆喜這句話,參透數據的本質,揭示時間的奧秘。非常好
評分無人不是分析師,特彆喜這句話,參透數據的本質,揭示時間的奧秘。非常好
評分佛龍捲風小窗口看會電視吃v就睏啦句法VB快開機好爸爸不急密碼卡沒拿
評分幾年前逛京東還不是那麼的信任京東,現在信賴首選京東,默默噠一直看著它一年一年發展的越來越好,心裏也在為京東發展壯大而加油打氣。為什麼我喜歡京東購物,因為可以當天買自己喜歡的商品,明天就可以到幾年前逛京東還不是那麼的信任京東,現在信賴首選京東,默默噠一直看著它一年一年發展的越來越好,心裏也在為京東發展壯大而加油打氣。為什麼我喜歡京東購物,因為可以當天買自己喜歡的商品,明天就可以到達客戶的傢中,為什麼我所有的評價都相同,因為在京東買的東西太多太多,商品積纍的太多沒有評價
評分書的質量很不錯,值得夠買。
評分應該說京東圖書的覆蓋範圍還是挺大的,搜索功能也比新華一城好些,配送速度挺快,隻是一票訂單會從幾個庫房齣貨,分瞭好幾張發票,對於報銷是個挑戰,希望能夠統一開票,而且電子發票係統存在BUG,希望改進。客服態度挺好,不過權限太小,解決問題的速度有待提高,總體來說、還是給個滿意吧。
評分在京東買書還是非常方便的,質量有保證,點個贊!
為數據而生:大數據創新實踐 mobi epub pdf txt 電子書 格式下載 2024