Spark大数据处理技术 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

夏俊鸾，黄洁，程浩等著

图书标签:

Spark
大数据
数据处理
分布式计算
Scala
Python
Java
数据分析
机器学习
实时计算

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121250811

版次：1

商品编码：11622833

品牌：Broadview

包装：平装

开本：16开

出版时间：2015-01-01

用纸：胶版纸

页数：336

字数：346000

正文语种：中文

具体描述

产品特色

编辑推荐

　　为数不多全面介绍Spark及Spark生态圈相关技术的技术书籍
　　俯览未来大局，不失精细剖析，呈现一个现代大数据框架的架构原理和实现细节
　　透彻讲解Spark原理和架构，以及部署模式、调度框架、存储管理及应用监控等重要模块
　　Spark生态圈深度检阅：SQL处理Shark和Spark SQL、流式处理Spark Streaming、图计算Graphx及内存文件系统Tachyon

内容简介

　　《Spark大数据处理技术》是一本全面介绍Spark及Spark生态圈相关技术的书籍，是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部重要模块分析，包括部署模式、调度框架、存储管理以及应用监控；同时也详细介绍了Spark生态圈中其他的软件和模块，包括SQL处理引擎Shark和Spark SQL、流式处理引擎Spark Streaming、图计算框架Graphx以及分布式内存文件系统Tachyon。《Spark大数据处理技术》从概念和原理上对Spark核心框架和生态圈做了详细的解读，并对Spark的应用现状和未来发展做了一定的介绍，旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。
　　《Spark大数据处理技术》适合任何大数据、Spark领域的从业人员阅读，同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习《Spark大数据处理技术》，读者能够熟悉和掌握Spark这一当前流行的大数据框架，并将其投入到生产实践中去。

作者简介

　　夏俊鸾，现任阿里巴巴数据平台部高级技术专家，Apache Spark项目Committer，曾就职于英特尔亚太研发中心，微博账号@Andrew-Xia。
　　
　　　　刘旭晖，现任蘑菇街数据平台资深架构师（花名天火），曾就职于英特尔亚太研发中心大数据软件部，Spark/Hadoop/Hbase/Phoenix 等众多大数据相关开源项目的积极贡献者。乐于分享，著有CSDN博客 blog.csdn.net/colorant。
　　
　　　　邵赛赛，英特尔亚太研发有限公司开发工程师，专注于大数据领域，开源爱好者，现从事Spark相关工作，Spark代码贡献者。
　　
　　　　程浩，英特尔大数据技术团队软件工程师，Shark和Spark SQL活跃开发者，致力于SQL on Big Data的性能调优与优化。
　　
　　史鸣飞，英特尔亚太研发有限公司大数据软件部工程师，专注于大数据领域，主要从事Spark及相关项目的开发及应用，Spark及Shark代码贡献者，现在主要投身于Tachyon项目的开发。
　　
　　　　黄洁，目前就职于英特尔亚太研发中心大数据技术中心，担任高级软件工程师，致力于大数据技术的性能优化及开发工作，涉及Hadoop、Spark、HBase等开源项目。在多年的工作过程中，积累了一定的分布式大数据框架性能调优经验，并且是Apache Chukwa项目的PMC成员和Committer。在此之前，毕业于上海交通大学并获硕士及学士学位。

内页插图

精彩书评

　　★Spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了Spark和Spark上多个重要计算框架，希望它的问世可以更好地在大中华地区普及Spark，增进华人Spark社区的发展。
　　——Databricks大数据公司联合创始人 Apache Spark PMC Member 辛湜
　　
　　★Apache Spark对一体化大数据流水线的搭建进行了前所未有的简化。然而，在大数据领域固有的复杂性面前，要交付高效稳定的数据产品，开发者仍有必要对框架细节有充分的了解。本书详细介绍了Spark主体框架中为关键的执行流程，相信可以为读者在基于Spark的大数据系统设计和调优方面提供有效的指导。
　　——Databricks工程师连城
　　
　　★随着大数据时代的到来，企业数据每天都在急剧快速膨胀，如何发掘这些数据的价值，需要一种高效而稳定的分布式计算框架和模型。Spark恰逢其时，应运而生。本书对Spark进行了详细的阐述，包括核心模块和各个子系统，能让Spark初学者快速了解和上手Spark，是学习Spark的敲门砖。希望借此书，能让更多的读者去深入发掘Spark之美。
　　——淘宝技术部数据挖掘与计算团队负责人黄明（明风）
　　
　　★Apache Spark由于其基于内存的高性能计算模式以及丰富灵活的编程接口，得到了广泛的支持和应用，大有逐渐取代Hadoop MapReduce成为新一代大数据计算引擎的趋势。本书从源代码角度深入浅出地分析了Apache Spark及相关大数据技术的设计及实现，包含很多实战经验和使用心得。相信本书对于进行大数据、内存计算及分布式系统研究，Apache Spark的深入理解以及实际应用，都有很好的参考价值。
　　——英特尔亚太研发有限公司技术总监段建刚
　　
　　★大数据是行业热点中的热点，而Spark则是大数据相关技术中的明星。本书的几位作者都是在Spark领域有着丰富一线经验的技术从业者，本书系统化地介绍了Spark相关知识，是学习Spark不可多得的优秀书籍。
　　——前淘宝技术部负责人、技术总监曾宪杰

第1章 Spark系统概述
1.1 大数据处理框架
1.2 Spark大数据处理框架
1.2.1 RDD表达能力
1.2.2 Spark子系统
1.3 小结

第2章 SparkRDD及编程接口
2.1 Spark程序“HelloWorld”
2.2 SparkRDD
2.2.1 RDD分区（partitions）
2.2.2 RDD优先位置（preferredLocations）
2.2.3 RDD依赖关系（dependencies）
2.2.4 RDD分区计算（compute）
2.2.5 RDD分区函数（partitioner）
2.3 创建操作
2.3.1 集合创建操作
2.3.2 存储创建操作
2.4 转换操作
2.4.1 RDD基本转换操作
2.4.2 键值RDD转换操作
2.4.3 再论RDD依赖关系
2.5 控制操作（controloperation）
2.6 行动操作（actionoperation）
2.6.1 集合标量行动操作
2.6.2 存储行动操作
2.7 小结

第3章 Spark运行模式及原理
3.1 Spark运行模式概述
3.1.1 Spark运行模式列表
3.1.2 Spark基本工作流程
3.1.3 相关基本类
3.2 Local模式
3.2.1 部署及程序运行
3.2.2 内部实现原理
3.3 Standalone模式
3.3.1 部署及程序运行
3.3.2 内部实现原理
3.4 Localcluster模式
3.4.1 部署及程序运行
……
第4章 Spark调度管理原理
第5章 Spark的存储管理
第6章 Spark监控管理
第7章 Spark架构与安装配置
第8章 SQL程序扩展
第9章 SparkSQL
第10章 SparkStreaming流数据处理框架
第11章 GraphX计算框架
第12章 Tachyon存储系统

前言/序言

　　序
　　2009年的时候，Netflix公司举办了一个叫作Netflix Prize的推荐算法比赛。这个比赛匿名公布了Netflix五十万用户对近两万部电影的一亿个评分数据，希望参赛者能够开发出更好的推荐算法，以提高推荐系统的质量。这个比赛的奖金有一百万美元。一百万美元看似很多，但是和一个更好的推荐算法给Netflix带来的效益相比，实则九牛一毛。
　　高昂的奖金和Netflix提供的真实数据吸引了不少的参赛者，其中也包括了来自加州大学伯克利分校（UC Berkeley）的博士生Lester Mackey。Lester师从机器学习领域泰斗Michael Jordan，在一个叫作AMPLab的大数据实验室里进行博士研究。AMPLab和大多数学术界实验室不同的地方在于实验室内有多个教授和他们带领的学生一起合作。这些研究人员来自不同的领域，包括机器学习、数据库、计算机网络、分布式系统等。当时，要想提高算法研究迭代的效率，需要利用多台机器的分布式建模。在尝试了当时业界最流行的Hadoop MapReduce后，Lester发现自己的时间并不是花在提高算法效率上，而是耗费在MapReduce的编程模型和低效的执行模式上。这个时候，他向实验室内部的另外一名进行分布式系统研究的学生Matei Zaharia求助。
　　当时年纪轻轻的Matei在业界已经小有名望。他在雅虎和Facebook实习期间做了很多Hadoop早期的奠基工作，包括现今Hadoop系统内应用最广的fair scheduler调度算法。在和Lester的思维碰撞中，Matei总结了Hadoop MR的不足，开始设计了第一个版本的Spark。这个版本完全为了Lester定制，只有几百行的代码，使得Lester可以高效率地进行分布式机器学习建模。
　　Lester所在的The Ensemble团队最后和BellKor's Pragmatic Chaos设计了在效率上并列第一的算法，可惜因为晚了20分钟提交，与一百万美元奖金失之交臂。5年之后，Lester和Matei都变成了学术界和业界杰出的人物。Lester成为了斯坦福大学计算机系的教授，带领着自己的学生攻克一个又一个机器学习和统计的难题。Matei成为了麻省理工计算机系的教授，也是Databricks公司的CTO。
　　2009年之后的4年里面，AMPLab以Spark为基础展开了很多不同的学术研究项目，其中包括了我参与和主导的Shark和GraphX，还有Spark Streaming、MLlib等。4年里随着Hadoop的发展，Spark也逐渐从一个纯学术研究项目发展到了开始有业界敢于吃螃蟹的用户。
　　2013年，包括Matei和我在内的Spark核心人员共同创立了Databricks公司，立志于提高Spark的发展速度。过去两年，Spark的发展超越了我们所有人的想象。一年半以前Spark还是一个连监控界面都不存在的系统，很难放进生产线部署。而一年半后的今天，它已经变成了整个大数据生态圈和Apache Software Foundation内最活跃的项目，活跃程度远远超出了曾经Spark只能望其项背的Hadoop。
　　在从Hadoop转向Spark的道路上，我个人感觉国内的速度甚至超越了国外的社区。一年以前我第一次在中国的大数据会议上宣讲Spark，当时台下的大多数人对这个新的项目还有很大的质疑，认为其只会昙花一现。一年之后，Spark的每个新版本中都有不少华人贡献的代码，国内很多高科技和互联网公司也都有了Spark的生产作业，不少用户直接减少了在Hadoop MapReduce上的投资，把新的项目都转移到了Spark上。
　　今天正好是Databricks公司成立一年半，也是Spark 1.2版本第一个release candidate发布的日期。Spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了Spark和Spark上多个重要计算框架，希望它的问世可以更好地在大中华地区普及Spark，增进华人Spark社区的发展。
　　辛湜 Reynold Xin
　　2014年11月30号
　　Berkeley, CA

《海上的足迹：航海史上的伟大发现与变革》内容简介：《海上的足迹》并非一本关于数据技术、分布式计算或人工智能的图书。它是一次穿越时空的旅程，一次深入探究人类文明史上海洋探索与商业扩张的宏大叙事。本书带领读者回顾那些点燃人类好奇心、驱动探险家扬帆远航的时代，从古希腊的腓尼基商人踏上地中海的波涛，到公元15世纪末，葡萄牙和西班牙的水手们开启大航海时代，再到近代科技进步如何进一步拓展了人类的海洋疆界。本书的核心在于揭示海洋如何从一片未知而畏惧的蓝色区域，演变为连接世界、孕育文明、塑造地缘政治的至关重要的大动脉。我们将一同审视那些伟大的航海家，如麦哲伦、哥伦布、达伽马、库克等，他们的勇气、智慧与坚持，如何突破了当时的技术和地理局限，为世界地图增添了新的版图。但《海上的足迹》更关注的，是这些“发现”背后所带来的深远影响。第一部分：远古的呼唤与初期的探索本书的开篇，我们将追溯人类与海洋最早的交集。从考古证据中，我们可以看到早期人类如何利用简单的船只在沿海区域活动，捕鱼、迁徙，将海洋视为生存的来源而非征服的目标。地中海沿岸的文明，如古埃及、古希腊、古罗马，都与海洋有着密不可分的联系。我们将详细探讨腓尼基人作为早期海上贸易的先驱，他们如何在漫长的海岸线上建立起贸易网络，将物品、技术和文化传播到地中海的各个角落。随后，我们将聚焦于阿拉伯和中国在航海史上的重要贡献。阿拉伯商人在印度洋和红海的贸易活动，以及他们对天文导航的贡献，为后来的探险家奠定了基础。而中国的郑和下西洋，以其庞大的船队和宏伟的规模，展示了古代中国在航海技术和组织能力上的巅峰。这些早期航海活动，虽然规模和目的与后来的大航海时代有所不同，但它们都标志着人类利用海洋拓展生存空间和交流范畴的初步尝试。第二部分：大航海时代的黎明与巨变本书的重点将集中在大航海时代，这一时期人类对海洋的认知和利用发生了根本性的飞跃。我们将深入分析促成这一时代到来的多重因素：技术革新：详细介绍改进的造船技术，如卡拉维尔帆船（Caravel）和克拉克帆船（Carrack）的出现，它们更坚固、更适合远洋航行，并能搭载更多的货物和人员。同时，我们将探讨导航技术的进步，如星盘（Astrolabe）、象限仪（Quadrant）以及更精确的航海钟（Chronometer）的研发，这些工具极大地提高了船只定位的准确性，使得船长们敢于离开熟悉的海岸线。指南针（Compass）的普及也至关重要。经济与政治驱动：剖析欧洲国家对东方香料、丝绸等奢侈品的需求，以及对黄金和白银的渴求。我们将考察各国君主和商贸团体如何投资航海事业，以期获得丰厚的贸易利润和国家扩张的领土。宗教传播的意愿，如将基督教传播到未知的土地，也是一部分探险的动力。地理知识的探索：详细描绘哥伦布发现美洲、达伽马绕过好望角抵达印度、麦哲伦完成环球航行等里程碑式的事件。本书将不仅仅是罗列这些事件，更会深入探讨这些发现如何颠覆了当时欧洲人狭隘的地理观念，将原本孤立的大陆连接起来，开启了“全球化”的序幕。我们将审视“新大陆”的发现对欧洲、非洲和亚洲产生的连锁反应。第三部分：海洋的商业帝国与殖民扩张大航海时代的航行，并非仅仅是地理上的探索，更是商业利益和政治权力争夺的舞台。《海上的足迹》将详细分析随之而来的商业帝国是如何建立的。贸易路线的重塑：探讨欧洲国家如何建立起新的海上贸易路线，将美洲的贵金属、烟草、可可，非洲的奴隶、象牙，亚洲的香料、瓷器等商品大规模地运往欧洲，并在全球范围内进行交换。我们将审视东印度公司、西印度公司等早期跨国贸易公司的运作模式，以及它们如何成为巨大的经济和政治力量。奴隶贸易的罪恶：本书不会回避人类历史上最为黑暗的一页——跨大西洋奴隶贸易。我们将深入剖析这一残酷的贸易体系是如何运作的，它对非洲社会、美洲殖民地以及欧洲经济产生了怎样的深远影响。我们将探讨其背后的经济逻辑、种族歧视以及人性的扭曲。殖民体系的建立：详细描述欧洲列强如何在美洲、亚洲和非洲建立殖民地，掠夺资源，控制贸易，并对当地原住民的文化、社会和政治结构造成毁灭性的影响。我们将审视不同殖民体系的特点，以及它们如何塑造了当今世界的地缘政治格局和民族关系。第四部分：科技进步与海洋的现代图景随着工业革命的到来，人类征服海洋的能力再次被提升到新的高度。《海上的足迹》将探讨这一时期的关键变革：蒸汽动力与钢铁巨轮：详细介绍蒸汽机的出现如何改变了船舶的动力系统，使得航行不再完全依赖风力，大大提高了航行的速度和可靠性。蒸汽船的出现也促进了远洋客运和货运的规模化发展。我们将审视钢铁材料在造船业中的应用，使得船只更加坚固，能够承受更恶劣的海况。海底电缆与全球通信：探讨铺设海底电缆的伟大工程，这使得信息可以在极短的时间内跨越大洋，连接起世界各地，极大地加速了全球信息的流通和商业活动的效率。海洋科学的兴起：介绍海洋学、气象学等科学学科的兴起，以及它们如何帮助人类更深入地理解海洋的规律，更安全、更高效地利用海洋资源。科考船的出现，如著名的“挑战者”号（HMS Challenger）探险，为我们揭示了海洋的深邃与神秘。现代海运与全球化：描绘集装箱运输、超级油轮、大型货柜船等现代海运体系如何支撑起当今高度发达的全球贸易网络。我们将探讨海洋在现代经济中的核心地位，以及国际航运规则和海洋权益的演变。第五部分：海洋的未来与人类的责任在本书的最后，我们将目光投向海洋的未来，以及人类在其中扮演的角色。海洋资源的开发与挑战：探讨渔业、石油、天然气等海洋资源的开发利用，以及随之而来的过度捕捞、环境污染等问题。我们将关注深海采矿、海上风力发电等新兴海洋开发技术。环境变化与海洋保护：详细阐述气候变化对海洋生态系统的影响，如海平面上升、海洋酸化、珊瑚礁白化等。我们将审视国际社会在海洋环境保护方面的努力，以及可持续利用海洋资源的重要性。海洋安全与国际合作：探讨海上交通安全、反海盗、海洋权益争端等全球性议题，以及国际合作在维护海洋和平与稳定中的作用。《海上的足迹：航海史上的伟大发现与变革》旨在通过对人类数千年来与海洋互动历史的深入剖析，让读者理解海洋是如何从一片未知走向如今全球体系的基石。它是一部关于勇气、探索、商业、冲突、合作以及人类对未知世界不懈追求的史诗。本书将带领读者一同感受那些乘风破浪的壮丽画卷，也思考我们在保护和利用这片蓝色星球时所肩负的责任。它不仅仅是一段历史的记录，更是对人类文明发展进程的一次深刻反思，让我们在波涛万顷之间，看到人类精神的坚韧与智慧的光芒。

用户评价

评分☆☆☆☆☆

这本书的封面设计简洁大气，却又不失专业感，让我第一眼就感受到它所蕴含的深厚技术底蕴。我一直以来都在寻找一本能够系统性梳理Spark大数据处理流程的教材，能够从宏观的架构到微观的调优，提供一个完整的解决方案。从这本书的书名来看，它似乎正是满足了我这样的需求。我非常希望能在这本书中找到关于Spark集群的搭建与配置的详细指南，包括各种模式（Standalone、Mesos、YARN）的优缺点分析，以及如何根据实际场景选择最合适的部署方式。同时，对于Spark的内存管理、任务调度、数据容错机制等核心概念，我也希望能够得到深入的阐释，理解它们是如何协同工作，保证大数据处理的高效与稳定。我相信，掌握了这些底层原理，才能更好地进行性能调优，解决可能出现的各种复杂问题。这本书的出现，对我来说，无疑是及时雨，将为我扫清在大数据处理道路上的不少迷雾。

评分☆☆☆☆☆

第一眼看到这本书的名字，我就被深深吸引了。“Spark大数据处理技术”——这个名字本身就充满了技术的力量感和对未来趋势的把握。我一直对大数据领域抱有浓厚的兴趣，也了解Spark在这个领域的重要性，但总觉得理论知识与实际操作之间存在一道鸿沟。这本书的出现，仿佛就是为了填补我知识的空白，给我指明了一条通往精通Spark的清晰路径。我尤其好奇书中会如何深入浅出地讲解Spark的分布式计算原理，例如RDD、DataFrame和Dataset的底层实现机制，以及它们在性能优化方面各自的优势与劣势。此外，对于Spark SQL的强大查询能力，以及Structured Streaming在实时数据处理方面的应用，我也充满期待。我相信，通过阅读这本书，我能够更深刻地理解Spark的架构设计，掌握其核心API，并能够灵活运用Spark来解决实际的大数据处理难题，从而在我的工作中提升效率，甚至开辟新的技术视野。这本书不仅仅是一本技术书籍，在我看来，更是一份通往大数据领域前沿的通行证。

评分☆☆☆☆☆

作为一名刚刚接触大数据领域的初学者，我对Spark这个名字已经耳熟能详，但对其具体的应用和技术细节却知之甚少。看到《Spark大数据处理技术》这本书，我感到非常振奋。它让我看到了一个学习Spark的绝佳机会。我希望这本书能够循序渐进地引导我入门，从Spark的基本概念和核心组件讲起，例如Spark的分布式计算模型，以及如何通过Spark Core进行基本的批处理操作。我也期待书中能介绍如何使用Spark SQL进行数据分析，以及Spark MLlib在机器学习领域的应用。更重要的是，我希望能通过本书了解如何在实际项目中应用Spark，例如如何处理各种类型的数据源，如何构建ETL流程，以及如何监控和优化Spark作业的性能。这本书的出现，为我打开了一扇通往大数据世界的大门，我渴望从中汲取知识，为未来的职业发展打下坚实的基础。

评分☆☆☆☆☆

我一直对实时数据处理和流计算充满好奇，而Spark Streaming（或Structured Streaming）正是这一领域的明星技术。因此，当我看到《Spark大数据处理技术》这本书时，我的目光立刻被吸引住了。我非常希望这本书能够详尽地阐述Spark Streaming的原理，包括其微批处理（micro-batching）模型，以及Structured Streaming的逻辑执行计划和连续处理（continuous processing）的优势。书中关于如何构建端到端流处理应用的示例，以及如何处理延迟、窗口操作、状态管理等关键问题，是我最为关注的部分。我也期待了解如何将Spark Streaming与Kafka、Kinesis等消息队列结合使用，以及如何进行流式ETL、流式机器学习等高级应用。这本书的存在，让我看到了掌握流计算技术的希望，我希望能从中获得实际操作的经验，从而能够独立设计和实现高性能的流处理解决方案。

评分☆☆☆☆☆

在如今这个数据爆炸的时代，掌握高效的大数据处理技术已经成为一项必备技能。我一直密切关注着技术的发展动态，Spark作为业界领先的分布式计算系统，其重要性不言而喻。看到《Spark大数据处理技术》这本书，我毫不犹豫地将它列入了我的必读清单。我非常期待书中能够深入探讨Spark的演进历程，分析Spark 1.x与Spark 2.x在架构和性能上的关键差异，以及Spark 3.x在GPU加速、AI集成等方面的新特性。我也想了解Spark是如何与其他大数据生态系统（如Hadoop、Kafka、HDFS、Hive等）进行无缝集成的，并希望能看到一些实际的集成案例和最佳实践。此外，对于Spark在特定领域的应用，比如在金融风控、电商推荐、日志分析等场景下的具体实现，我也非常感兴趣。这本书无疑将成为我深入理解Spark技术体系，拓展技术视野的宝贵资源。

评分☆☆☆☆☆

排版有点乱，不如spark核心技术应用

评分☆☆☆☆☆

不太推荐的一本书，讲的不是太好，入门吧讲的细了，细节吧又不是那么细，不上不下的感觉

评分☆☆☆☆☆

买了好多书，慢慢看…

评分☆☆☆☆☆

书不错，内容有点难，慢慢看吧

评分☆☆☆☆☆

京东送货速度快，挺好的书，是正品

评分☆☆☆☆☆

老公买的，不知道他看了没有，反正我是一直不舍得买纸质书的。一本电子书，走天下