Scala机器学习 pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

[美] 亚历克斯·科兹洛夫（Alex Kozlov）著，刘波译

图书标签:

Scala
机器学习
数据科学
算法
编程
技术
计算机科学
人工智能
大数据
Spark

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111572152

版次：1

商品编码：12128617

品牌：机工出版

包装：平装

丛书名：大数据技术丛书

开本：16开

出版时间：2017-07-01

用纸：胶版纸

页数：203

具体描述

内容简介

　　Copyright ?2016 Packt Publishing. First published in the English language under the title “Mastering Scala Machine Learning”.All rights reserved.Chinese simplified language edition published by China Machine Press.Copyright ?2017 by China Machine Press.本书中文简体字版由Packt Publishing授权机械工业出版社出版。未经出版者书面许可，不得以任何方式复制或抄袭本书内容。

前言/序言

　　Preface前言这是一本关于机器学习的书，它以Scala为重点，介绍了函数式编程方法以及如何在Spark上处理大数据。九个月前，当我受邀写作本书时，我的第一反应是：Scala、大数据、机器学习，每一个主题我都曾彻底调研过，也参加了很多的讨论，结合任何两个话题来写都具有挑战性，更不用说在一本书中结合这三个主题。这个挑战激发了我的兴趣，于是就有了这本书。并不是每一章的内容都像我所希望的那样圆满，但技术每天都在快速发展。我有一份具体的工作，写作只是表达我想法的一种方式。

　　下面先介绍机器学习。机器学习经历了翻天覆地的变换；它是由人工智能和统计学发展起来的，于20世纪90年代兴起。后来在2010年或稍晚些时候诞生了数据科学。数据科学家有许多定义，但JoshWills的定义可能最通俗，我有幸在Cloudera工作时和他共事过。这个定义在图1中有具体的描述。虽然细节内容可能会有争议，但数据科学确实是几个学科的交叉，数据科学家不一定是任何一个领域的专家。据JeffHammerbacher（Cloudera的创始人，Facebook的早期员工）介绍，第一位数据科学家工作于Facebook。Facebook需要跨学科的技能，以便从当时大量的社交数据中提取有价值的信息。虽然我自称是一个大数据科学家，但我已经关注这个交叉领域很久了，以至于有太多知识出现混淆。写这本书就是想使用机器学习的术语来保持对这些领域的关注度。

　　图1数据科学家的一种可能定义最近，在机器学习领域出现了另一个被广泛讨论的话题，即数据量击败模型的复杂度。在本书中可以看到一些SparkMLlib实现的例子，特别是NLP的word2vec。机器学习模型可以更快地迁移到新环境，也经常击败需要数小时才能构建的更复杂的模型。因此，机器学习和大数据能够很好地结合在一起。

　　最后也很重要的一点是微服务的出现。作者在本书中花了大量的篇幅介绍机器和应用程序通信，所以会很自然地提及Scala与Akkaactor模型。

　　对于大多数程序员而言，函数式编程更多是关于编程风格的变化，而不是编程语言本身。虽然Java8开始有来自函数式编程的lambda表达式和流，但是人们仍然可以在没有这些机制的情况下编写函数式代码，甚至可以用Scala编写Java风格的代码。使得Scala在大数据世界中名声鹊起的两个重要思想是惰性求值和不可变性，其中惰性求值可大大简化多线程或分布式领域中的数据处理。Scala有一个可变集合库和一个不可变集合库。虽然从用户的角度来看它们的区别很小，但从编译器的角度来看，不变性大大增加了灵活性，并且惰性求值能更好地与大数据相结合，因为REPL将大多数信息推迟到管道的后期处理，从而增加了交互性。

　　大数据一直备受关注，其主要原因是机器产生的数据量大大超越了人类在没有使用计算机以前的数量。Facebook、Google、Twitter等社交网络公司已经证明专门用于处理大数据的工具（如Hadoop、MapReduce和Spark）可以从这些数据块中提取丰富的信息。

　　本书后面将介绍关于Hadoop的内容。最初它能在廉价硬件上处理大量的信息，因为当时传统的关系数据库不能处理这样的信息（或能处理，但是代价过高）。大数据这个话题太大了，而Spark才是本书的重点，它是HadoopMapReduce的另一个实现，Spark提高了磁盘上持久化保存数据的效率。通常认为使用Spark有点贵，因为它消耗更多的内存，要求硬件必须更可靠，但它也更具交互性。此外，Spark使用Scala工作（也可以使用Java和Python等），但Scala是主要的API语言。因此Spark用Scala在数据管道的表达方面有一定的协同性。

　　本书主要内容第1章介绍数据分析师如何开始数据分析。除了允许用户使用新工具查看更大的数据集以外，该章并没有什么新东西。这些数据集可能分布在多台计算机上，但查看它们就像在本地机器上一样简单。当然，不会阻止用户在单个机器上顺序执行程序。但即使如此，作者写作的这个笔记本电脑也有四个核，可同时运行1377个线程。Spark和Scala（并行集合）允许用户透明地使用整个设备，有时并没有显式指定需要并行运行。现代服务器可对OS服务使用多达128个超线程。该章将展示如何使用新工具来进行数据分析，并用它来研究以前的数据集。

　　第2章介绍在Scala/Spark之前一直存在的数据驱动过程，也会介绍完全数据驱动的企业，这类企业通过多台数据生成机器的反馈来优化业务。大数据需要新的技术和架构来适应新的决策过程。该章借鉴了一些学术资料来阐述数据驱动型业务的通用架构。在这种架构下，大多数工人的任务是监控和调整数据管道。

　　第3章重点介绍Spark的体系结构，它是前面提及的HadoopMapReduce的替代者（或补充）。该章还将特别介绍MLlib所支持的几个算法。虽然这是一个崭新的话题，但许多算法都对应着各种实现。该章将给出一些例子，比如怎样运行org.apache.spark.mllib包中标准的机器学习算法。最后介绍Spark的运行模式及性能调整。

　　第4章介绍机器学习的原理，虽然SparkMLlib的内容可能会不断变化，但这些原理是不会变的。监督学习和无监

　　TheTranslator'sWords译者序大数据是当前热门的话题，其特点为数据量巨大，增长速度快，拥有各种类型。分布式机器学习是一种高效处理大数据的方法，其目的是从大数据中找到有价值的信息。目前各大互联网公司都投入巨资研究分布式机器学习。

　　在实现分布式机器学习算法时，函数式编程有天生的优势。这是因为函数式编程不会共享状态，也不会造成资源竞争。Scala是一种优秀的函数式编程语言，同时它也是基于Java虚拟机的面向对象的编程语言。使用Scala编程非常方便快捷。

　　Spark是2009年出现的一种基于内存的分布式计算框架，它的处理速度比经典的分布式计算框架Hadoop快得多。Spark的核心部分是由Scala实现的。Spark对于处理迭代运算非常有效，而分布式机器学习算法经常需要迭代运算，因此Spark能很好地与机器学习结合在一起。

　　本书共10章，介绍了如何使用Scala在Spark平台上实现机器学习算法，其中Scala的版本为2.11.7，Spark采用基于Hadoop2.6的版本，这些都是比较新的版本。本书从数据分析师怎么开始数据分析入手，介绍了数据驱动过程和Spark的体系结构；通过操作SparkMLlib库，介绍了机器学习的基本原理及MLlib所支持的几个算法；接着介绍了Scala如何表示和使用非结构化数据，以及与图相关的话题；再接着介绍了Scala与R和Python的集成；最后介绍了一些特别适合Scala编程的NLP常用算法及现有的Scala监控解决方案。总之，本书非常适合从事分布式机器学习的数据工作者，使用书中提供的大量针对性编程例子，可提高工程实战能力。

　　本书的第1～3章和第7章由重庆工商大学计算机科学与信息工程学院刘波博士翻译；第4～6章和第8～10章由重庆工商大学计算机科学与信息工程学院罗棻翻译。同时，刘波博士负责全书的技术审校工作。

　　翻译本书的过程也是译者不断学习的过程。为了保证专业词汇翻译的准确性，我们在翻译过程中查阅了大量相关资料。但由于时间和能力有限，书中内容难免出现差错。若有问题，读者可通过电子邮件（liubo7971@163.com;luofcn@163.com）与我们联系，欢迎一起探讨，共同进步。并且，我们也会将最终的勘误信息公布在http://www.cnblogs.com/mlcv/上。

　　本书的顺利出版还要特别感谢机械工业出版社华章公司的编辑在翻译过程中给予的帮助！

　　本书的翻译也得到如下项目资助：（1）国家自然科学基金一般项目，非同步脉冲神经膜系统研究，项目号：61502063；（2）重庆市检测控制集成系统工程实验室新技术新产品开放课题，基于图像内容的目标检测算法及应用研究，项目号：KFJJ2016042。

Scala机器学习：智能时代的强大引擎在数据爆炸式增长的今天，如何从海量信息中挖掘价值，让机器拥有理解、学习和决策的能力，已经成为各行各业关注的焦点。机器学习，作为人工智能的核心驱动力，正在以前所未有的速度改变着我们的世界。而Scala，凭借其优雅的语法、强大的表达能力以及与Java虚拟机（JVM）的无缝集成，正逐渐成为构建高性能、可扩展机器学习解决方案的理想选择。本书，《Scala机器学习》，将带您深入探索Scala在机器学习领域的无限可能。我们并非聚焦于某个特定的算法或模型，而是着眼于构建一套完整的Scala机器学习生态系统，帮助您掌握在Scala环境下进行数据处理、模型训练、评估与部署的各项核心技能。无论您是初次接触机器学习的开发者，还是寻求更高效工具的资深工程师，抑或是希望在数据科学领域拓展技能的学者，本书都将是您不可或缺的指南。为什么选择Scala进行机器学习？在探讨Scala机器学习的实战细节之前，让我们先来理解为什么Scala能够成为机器学习的有力武器。函数式编程的优势： Scala融合了面向对象和函数式编程的范式。函数式编程的不可变性、无副作用等特性，能够极大地简化并发编程，减少潜在的bug，使代码更易于测试和维护。在处理大规模数据集和复杂的计算任务时，这一点尤为重要。表达力强，代码简洁： Scala的语法简洁而富有表现力，能够用更少的代码实现更复杂的功能。这不仅提高了开发效率，也使得代码更容易理解和复用。 JVM生态系统的强大支撑： Scala运行在Java虚拟机上，这意味着您可以充分利用JVM庞大而成熟的生态系统，包括大量的Java库和框架。这为机器学习提供了丰富的工具箱，例如用于数据处理的Apache Spark、用于大规模计算的Akka等。类型安全： Scala强大的静态类型系统可以在编译时捕获许多潜在的错误，从而提高了代码的健壮性。这对于需要处理各种数据类型和复杂计算的机器学习任务来说，是至关重要的。与其他数据处理框架的协同： Scala与Spark等分布式计算框架的天然契合，使得构建可扩展的机器学习管道变得更加容易。本书内容概览：构建您的Scala机器学习能力本书的结构设计旨在循序渐进地引导您掌握Scala机器学习的各项技术。我们将从基础的Scala编程概念开始，逐步深入到各种机器学习算法的实现与应用。第一部分：Scala基础与数据科学准备在正式进入机器学习的核心之前，扎实的基础是必不可少的。我们将从Scala语言的关键特性入手，为您的机器学习之旅打下坚实基础。 Scala语言概览：简要回顾Scala的核心概念，包括变量、数据类型、控制结构、函数、类、特质（Traits）等。重点在于理解Scala函数式编程的精髓，如高阶函数、匿名函数、模式匹配等。集合操作与函数式数据处理：深入讲解Scala集合（List, Vector, Map, Set等）的强大功能，学习如何利用函数式编程风格高效地进行数据转换、过滤、映射和聚合。这将是后续数据预处理的基础。 Scala的面向对象特性：了解Scala是如何将面向对象与函数式编程结合的，包括类、继承、多态、抽象类、特质等，理解它们在构建模块化、可复用代码中的作用。并发与并行编程基础：介绍Scala的并发模型，包括Actor模型（通过Akka库）和Futures，为处理大规模计算和提升模型训练效率奠定基础。构建工具与项目管理：熟悉使用SBT (Simple Build Tool) 进行Scala项目的构建、依赖管理和测试，确保您的项目能够顺利运行和部署。第二部分：数据预处理与特征工程高质量的数据是成功机器学习的关键。本部分将专注于如何使用Scala有效地处理和转换数据，为模型训练做好准备。数据读取与写入：学习如何使用Scala读取和写入各种格式的数据，包括CSV, JSON, Parquet等，以及与文件系统的交互。数据清洗与处理：掌握Scala进行数据清洗的技巧，包括处理缺失值、异常值、重复值，以及数据格式统一等。特征提取与构建：探索如何从原始数据中提取有用的特征，例如文本数据的词袋模型、TF-IDF，以及数值数据的标准化、归一化等。数据转换与编码：学习将分类特征转换为数值特征（如独热编码、标签编码），以及处理日期、时间等特殊数据类型。数据可视化基础：介绍如何在Scala中进行基本的数据可视化，以便更好地理解数据分布和特征关系。我们将探索一些常用的Scala数据可视化库。第三部分：核心机器学习算法的Scala实现本书将深入讲解多种经典且实用的机器学习算法，并以Scala语言进行实现。我们将不仅关注算法的原理，更注重如何在Scala环境中高效地实现和应用它们。监督学习：线性回归与逻辑回归：理解这些基础模型的原理，并在Scala中实现它们，学习如何进行参数估计和模型评估。支持向量机 (SVM)：探索SVM的核函数和优化原理，并学习在Scala中构建和训练SVM模型。决策树与随机森林：深入理解树形模型的构建过程，以及如何通过集成学习（随机森林）来提升模型的鲁棒性和准确性。梯度提升树 (Gradient Boosting Trees)：学习XGBoost、LightGBM等先进的梯度提升算法，并在Scala中展示如何使用它们。朴素贝叶斯：了解其概率模型，并在文本分类等场景下进行应用。无监督学习： K-Means聚类：学习如何使用Scala实现K-Means算法，对数据进行分组。层次聚类：探索不同的层次聚类方法，并学习其在Scala中的应用。主成分分析 (PCA)：理解降维技术，并在Scala中进行PCA的实现和应用。关联规则挖掘 (Apriori)：学习如何发现数据中的潜在关联性。模型评估与选择：评估指标：详细讲解各种评估指标，如准确率、精确率、召回率、F1分数、AUC等，以及如何使用Scala进行计算。交叉验证：学习如何使用交叉验证来评估模型的泛化能力，避免过拟合。超参数调优：介绍网格搜索、随机搜索等超参数调优技术，并展示如何在Scala中实现。第四部分：集成与部署模型训练完成后，如何将其集成到实际应用中并进行高效部署，是机器学习项目成功的关键。与Apache Spark集成：深入讲解如何利用Spark MLlib库，在Scala中构建分布式机器学习管道，处理大规模数据集。我们将展示如何利用Spark进行数据预处理、模型训练和预测。模型持久化：学习如何将训练好的模型保存起来，以便在后续应用中进行加载和复用。构建机器学习服务：介绍如何将Scala机器学习模型封装成RESTful API，方便其他应用程序进行调用。性能优化与扩展性：探讨在Scala中进行机器学习模型性能优化的策略，以及如何构建可扩展的机器学习系统。实际案例分析：通过具体的应用场景，例如推荐系统、图像识别、自然语言处理中的机器学习任务，来展示Scala在实际项目中的应用。谁应该阅读本书？ Scala开发者：希望将Scala技能扩展到机器学习领域的开发者。数据科学家：寻求一种更强大、更具表达力语言来构建和部署机器学习模型的专业人士。 Java开发者：希望迁移到Scala并利用其在数据科学领域的优势的开发者。计算机科学专业的学生和研究人员：希望深入理解Scala在机器学习领域的应用和实现。任何对使用Scala进行智能系统构建感兴趣的工程师。《Scala机器学习》并非一本仅仅罗列算法概念的书籍，它更侧重于通过Scala这一强大工具，赋予您构建、训练、优化和部署实际机器学习解决方案的能力。我们相信，通过本书的学习，您将能够自信地驾驭Scala，在智能时代浪潮中，开辟出属于自己的一片天地。准备好迎接这场激动人心的技术之旅吧！

用户评价

评分☆☆☆☆☆

这本书的排版和印刷质量都令人印象深刻。书页纸张厚实，触感温润，墨迹清晰，长时间阅读也不会感到眼睛疲劳。我最看重一本技术书籍的易读性，而《Scala机器学习》在这一点上做得非常出色。目录清晰明了，章节划分合理，每一章的标题都能够准确地反映其内容，便于读者快速定位感兴趣的主题。我尤其欣赏书中对概念的讲解方式，据说能够深入浅出，将复杂的机器学习原理用通俗易懂的语言阐述清楚，并辅以丰富的图示和流程图，帮助读者建立直观的理解。对于像我这样需要将理论知识与实践相结合的学习者来说，这一点至关重要。我非常期待书中能够包含大量实用的代码示例，并且这些代码能够清晰地展示如何在Scala环境中实现各种机器学习算法，包括数据预处理、模型训练、参数调优以及模型评估等关键环节。

评分☆☆☆☆☆

这本书的作者在 Scala 和机器学习领域都拥有深厚的造诣，这让我对其内容充满了信心。我一直认为，一本优秀的机器学习书籍，不仅要讲解算法原理，更要提供实际可行的实现方法，并能结合实际应用场景进行深入分析。《Scala机器学习》这本书，据说是完美地结合了这几点。我特别期待书中能够深入剖析 Scala 语言在机器学习中的独特优势，例如其函数式编程的特性如何帮助我们编写出更简洁、更易于维护的代码，以及如何利用 Scala 的并发和分布式计算能力来处理大规模数据集。此外，我希望能看到书中提供大量的代码示例，并且这些示例都经过精心设计，能够清晰地展示如何一步步构建和训练机器学习模型，并且能够解释每一步背后的原理。我希望这本书能成为我学习 Scala 机器学习的有力助手，帮助我快速掌握这项前沿技术。

评分☆☆☆☆☆

我是一名正在探索机器学习领域的初学者，一直对如何将Scala这门强大且富有表现力的语言应用于机器学习感到好奇。在网上搜索相关资源时，《Scala机器学习》这本书引起了我的注意。从书名来看，它似乎能够填补我在这方面的知识空白。我希望这本书能为我提供一个坚实的理论基础，让我理解机器学习的核心概念，并在此基础上，学习如何利用Scala的语法优势和强大的库生态系统来构建和实现各种机器学习模型。我特别期待书中能够详细介绍Scala在数据处理、特征工程以及算法实现方面的最佳实践，或许还会涉及到一些分布式计算框架，如Spark，因为我知道Scala在这方面有着卓越的表现。我希望能通过这本书，不仅掌握机器学习的理论，更能学会用Scala来解决实际问题，为我的数据科学之路奠定坚实的基础。

评分☆☆☆☆☆

这本书的序言部分写得相当有吸引力，它不仅点出了Scala在现代数据科学和机器学习领域日益增长的重要性，还强调了其函数式编程的特性如何为构建健壮、可扩展的机器学习系统提供了独特的优势。读完序言，我感觉自己仿佛置身于一个充满挑战和机遇的领域，迫不及待地想要深入探索。我尤其好奇的是，这本书将如何将Scala的语言特性与经典的机器学习算法相结合。是会从Scala的基础语法入手，逐步过渡到具体的算法实现，还是会直接讲解算法，然后展示如何在Scala中高效地实现它们？我希望作者能够提供一种循序渐进的学习路径，让像我这样对Scala不太熟悉的读者也能轻松上手。同时，我也对书中可能包含的案例研究非常感兴趣，期待看到Scala机器学习在实际业务场景中的应用，例如在金融风控、推荐系统或者自然语言处理等方面的解决方案。

评分☆☆☆☆☆

这本书的包装很精美，拿到手里就觉得很有质感，封面设计简洁大方，字体清晰，让人一眼就能感受到其专业性。我本来对机器学习这个领域了解不多，只是听说它在人工智能方面有着举足轻重的地位，所以一直想找一本合适的入门书来学习。在众多选择中，我被《Scala机器学习》这个书名吸引了。Scala这个语言我平时工作中接触得不多，但听说它在大数据和分布式计算领域非常流行，而且与机器学习结合也是一个很热门的方向。我期待这本书能带我领略Scala在机器学习领域的魅力，学习如何运用这门语言来构建强大的机器学习模型，解决实际问题。当然，我更看重的是这本书的实用性，希望它能提供清晰易懂的讲解，丰富的代码示例，以及对实际应用场景的深入分析，帮助我从零开始掌握Scala机器学习的核心技术。

评分☆☆☆☆☆

转型大数据开发，京东送货快，书质量还行~

评分☆☆☆☆☆

不错，书的质量很好，内容严谨废话少，正是需要的

评分☆☆☆☆☆

通俗易懂，很好理解，书是正版的

评分☆☆☆☆☆

很好的书，包装精美，全部用塑料膜封好，保护的很

评分☆☆☆☆☆

比较经典的一本图书，类似于一种漫谈性质的图书，涉及比较广，适合入门

评分☆☆☆☆☆

很好很赞很不错，东西用着还可以