內容簡介
本書第1章介紹ApacheKylin的曆史、技術原理和産品定位,幫助用戶瞭解何時和為何使用Kylin。第2章通過一個具體的案例快速入門,講解Kylin核心概念、Cube建模和SQL連接查詢這些基本使用。第3、4章講解增量構建和進一步的流式構建,是大多數案例典型配置。第5、6章是針對查詢和可視化、Cube調優的兩個專門章節,適閤較高級的用戶。第7章是一係列有行業特點的具體案例分析,貫穿之前的所有概念。第8、9章講ApacheKylin的擴展和企業級高級功能,技術性較強,會有較多的代碼示例。第10章講運維管理,從安裝配置、監控維護到常見的問題和修復。全書後兩章談ApacheKylin開源社區和項目發展規劃。
作者簡介
本書將由李揚為首的麒麟技術團隊撰寫。團隊是Apache Kylin的主創團隊,是瞭解麒麟技術的一個團隊。
李揚是大數據架構師和工程師,專注大數據分析技術。他是Apache Kylin管理委員會成員,也是Kyligence Inc.(一傢專業提供大數據商務智能服務的創業公司)創始人之一。李揚是Apache Kylin主創團隊的架構師和技術負責人,在eBay期間從2014年開始開發Kylin項目。之前,李揚在IBM工作8年,在摩根士丹利工作2年。在IBM期間,他是“傑齣技術貢獻奬”的獲奬者,曾擔任InfoSphere BigInsights的技術負責人,負責Hadoop開源産品架構。在摩根士丹利期間,李揚擔任副總裁,負責全球監管報錶基礎架構。
目錄
推薦序推薦序二推薦序三推薦序四前言第1章Apache Kylin概述
1.1背景和曆史
1.2ApacheKyin的使命
1.3 ApacheKylin的工作原理
1.3.1維度和度量簡介
1.3.2 Cube和Cuboid
1.3.3工作原理 。
1.4 ApacheKylin的技術架構
1.5 ApacheKylin的主要特點
1.5.1標準SQL接口
1.5.2支持超大數據集
1.5.3亞秒級響應
1.5.4可伸縮性和高吞吐率
1.5.5 BI及可視化工具集成
1.6與其他開源産品比較
1.7小結第2章快速入門
2.1核心概念
2.1.1數據倉庫、OLAP與BI
2.1.2維度和度量
2.1.3事實錶和維度錶
2.1.4 Cube、Cuboid和
Cube Segment
2.2在Hive中準備數據
2.2.1星形模型
2.2.2維度錶的設計
2.2.3 Hive錶分區
2.2.4瞭解維度的基數
2.2.5 SampleData
2.3設計Cube
2.3.1導入Hive錶定義
2.3.2創建數據模型
2.3.3創建CubP
2.4構建Cube
第3章增量構建
第4章流式構建
第5章查詢和可視化
第6章Cube優化
第7章應用案例分析
第8章擴展Apache Kyin
第9章Apache Kyin的企業級功能
第10章運維管理
第11章參與開源
第12章Apache Kyin的未來
前言/序言
“麒麟齣沒,必有祥瑞。”
——中國古諺語“於我而言,與Apache Kylin團隊一起閤作使Kylin通過孵化成為頂級項目是非常激動人心的,誠然,Kylin在技術方麵非常振奮人心,但同樣令人興奮的是Kylin代錶瞭亞洲國傢,特彆是中國,在開源社區中越來越高的參與度。”
-Ted Dunning Apache孵化項目副總裁,MapR首席應用架構師今天,隨著移動互聯網、物聯網、AI等技術的快速興起,數據成為瞭所有這些技術背後最重要,也是最有價值的“資産”。如何從數據中獲得有價值的信息?這個問題驅動瞭相關技術的發展,從最初的基於文件的檢索、分析程序,到數據倉庫理念的誕生,再到基於數據庫的商業智能分析。而現在,這一問題已經變成瞭如何從海量的超大規模數據中快速獲取有價值的信息,新的時代、新的挑戰、新的技術必然應運而生。
在數據分析領域,大部分的技術都誕生在國外,特彆是美國,從最初的數據庫,到以Hadoop為首的大數據技術,再到今天各種DL( Deep Learning)、AI,等等。但我國擁有著世界上獨一無二的“大”數據,最多的人口、最多的移動設備、最活躍的應用市場、最復雜的網絡環境等,應對這些挑戰,我們需要有自己的核心技術,特彆是在基礎領域的突破和研發方麵。今天,以Apache Kylin為首的各種來自中國的先進技術不斷湧現,甚至在很多方麵都大大超越瞭國外的其他技術,這一點也彰顯瞭中國的技術實力。
自Hadoop選取大象伊始,上百個項目,以動物居之者為多,而其中唯有Apache Kylin(麒麟)來自中國,在眾多項目中分外突齣。在全球最大的開源基金會-Apache軟件基金會(Apache Software Foundation,ASF)的1 60多個頂級項目中,Apache Kylin是唯一一個來自中國的頂級開源項目,與Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、?Apache Struts、Apache Maven等頂級項目一起以The Apache Way構建瞭開源大數據領域的國際社區,並拓展瞭生態係統。
大數據與傳統技術最大的區彆就在於數據的體量對查詢帶來的巨大挑戰。從最早使用大數據技術來做批量處理,到現在越來越多地需要大數據平颱也能夠如傳統數據倉庫技術一樣支持交互式分析。隨著數據量的不斷膨脹,數據平民化的不斷推進,低延遲、高並發地在Hadoop之上提供標準SQL查詢的能力成為必須要攻破的技術難題。而Apache Kylin的誕生正是基於這個背景,並成功地完成瞭很多人認為不可能實現的突破。Apache Kylin最初誕生於eBay中國研發中心(坐落於上海浦東新區的德國中心),在2013年9月底,eBay中國研發中心的技術人員開始對此進行POC並組建團隊,經過一年的艱苦開發和測試,於2014年9月30日使其正式上綫,並在第二天(2014年10月1日)正式開源。
在這個過程中,使用何種技術,如何進行架構,如何突破那些看似無法完成的挑戰,整個開發團隊和用戶一起經曆瞭一段艱難的曆程。今天呈現齣的Apache Kylin已經經曆瞭上韆億乃至上萬億規模數據量的分析請求,以及上百傢公司的實際生産環境的檢驗,成為各個公司大數據分析平颱不可替代的重要部分。本書將從Apache Kylin的架構和設計、各個模塊的使用、與第三方的整閤、二次開發及開源實踐等方麵進行講解,為各位讀者呈現最核心的設計理念和哲學、算法和技術等。
Apache Kylin社區的發展不易,自2014年10月開源到今天已有兩年,從最初的幾個人發展到今天的幾十個貢獻者,國內外上百傢公司在正式使用,連續兩年獲得InfoWorld BossieAwards最佳開源大數據工具奬。來自核心團隊、貢獻者、用戶、導師、基金會等的幫助和無私的奉獻鑄就瞭這個活躍的社區,也使得Apache Kylin得以在越來越多的場景下發揮作用。
現在,由Apache Kylin核心團隊撰寫瞭本書,相信能更好地將相關的理論、設計、技術、架構等展現給各位朋友,希望能夠讓更多的朋友更加充分地理解Kylin的優點和使用的場景,更多地挖掘齣Kylin的潛力。同時也希望本書能夠鼓勵並吸引更多的人參與Kylin項目和開源項目,影響更多人貢獻更多的項目和技術到開源世界來。
韓卿Apache Kylin聯閤創建者及項目委員會主席2016年10月
Apache Kylin權威指南 下載 mobi epub pdf txt 電子書 格式