数据分析与数据挖掘实用教程 [Introduction to Big Data Technology] pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

殷复莲著

图书标签:

数据分析
数据挖掘
大数据
机器学习
统计学习
Python
R语言
数据可视化
商业分析
数据科学

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：中国传媒大学出版社

ISBN：9787565721601

版次：1

商品编码：12291025

包装：平装

丛书名： “十三五”规划全媒体人才培养丛书·数据科学系列

外文名称：Introduction to Big Data Technology

开本：16开

出版时间：2017-09-01

用纸：胶版纸

页数：282

字

具体描述

内容简介

　　《数据分析与数据挖掘实用教程》立足于信息爆炸时代对大数据隐藏信息探索的需求，以多年实践教学经验及不断的应用创新为基础，构建了一系列数据分析与数据挖掘的实用理论及应用体系。
　　《数据分析与数据挖掘实用教程》中不仅以数据挖掘技术为基础进行分章详述，章后还配以相应的实验增进对知识的吸收理解，实验部分选取了典型数据集并配以精练的实验代码，使读者在掌握基础知识的同时了解业界认可的数据挖掘软件，为读者提供了广阔的进步与深造空间。

作者简介

　　殷复莲，1982年5月生，2010年毕业于哈尔滨工程大学，工学博士，现任教于中国传媒大学理工学部信息工程学院数字媒体技术系，副教授。主讲大数据与数据挖掘技术等课程，荣获中国传媒大学第八届“青年教师教学基本功大赛”二等奖、中国传媒大学首届“微课大赛”三等奖。主持或主要参与国家、省部级、横向等科研项目20余项，发表学术论文50余篇，其中SCI或EI检索20余篇，获得国家发明专利8项，软件著作权3项，荣获2015年度广播影视科技创新奖突出贡献奖、2015年中国电影电视技术协会科学进步奖一等奖、中国新闻技术工作者联合会2016年学术年会新闻科技论文一等奖等。

内页插图

第1章绪论
1．1 数据和大数据
1．2 数据分析和数据挖掘
1．3 数据挖掘的基本概念
1．4 R语言

第2章初识数据
2．1 数据类型
2．2 数据的统计特性
2．3 相似性和相异性度量
2．4 实验

第3章初始数据获取
3．1 数据获取
3．2 信息搜索
3．3 爬虫程序基本原
3．4 网络爬虫
3．5 实验

第4章数据预处理
4．1 为什么进行数据预处理
4．2 数据清理
4．3 数据集成
4．4 数据变换
4．5 数据归约
4．6 实验

第5章关联分析
5．1 关联分析的基本概念
5．2 关联分析的预备知识
5．3 频繁项集的产生
5．4 规则产生
5．5 关联模式的评估
5．6 实验

第6章回归
6．1 回归、分类和聚类的关系
6．2 回归的基本概念
6．3 线性回归
6．4 非线性回归
6．5 回归模型的评估
6．6 实验

第7章分类
7．1 分类的基本概念
7．2 决策树分类
7．3 k-最近邻分类
7．4 贝叶斯分类
7．5 人工神经网络分类
7．6 支持向量机分类
7．7 组合方法分类
7．8 分类模型的评估
7．9 实验

第8章聚类
8．1 聚类的基本概念
8．2 划分方法
8．3 层次方法
8．4 基于密度的方法
8．5 聚类方法的评估
8．6 实验

参考文献

前言/序言

　　人类的智慧使文明不断地从陈旧桎梏中破壳而出，21世纪是大数据的时代，以数字形态存储的数据中蕴藏着巨大的信息和智慧，正如人们早已对“啤酒和尿不湿”的故事耳熟能详，在如今大数据的浪潮之下，数据分析和数据挖掘技术作为大数据的核心技术基础，其理论和应用价值不言而喻。本书从实际应用的角度，深入浅出地介绍了数据分析和数据挖掘的基本概念和典型技术，以案例的形式进行讲授，并配以基于R语言的实验仿真，帮助读者了解数据挖掘的基本理论体系、掌握数据分析和数据挖掘的基本方法。本书共8章：
　　第1章为绪论，首先介绍了数据和大数据的基本概念，以明晰数据和大数据各自的特点，继而讲述数据分析和数据挖掘的区别，同时指明笔者非常赞同的证析的观点：“无论是数据分析还是数据挖掘，无论采用的分析手段是简单还是复杂，只要能够达到指导决策的效果就是非常优秀的方法。”第1章还重点介绍了数据挖掘的作用、标准流程和工具，最后对R语言的基本操作进行了描述。
　　第2章为初识数据，作为数据分析和数据挖掘的主体，本章首先对数据类型进行了定义，包括数据的定义和数据集的类型。接下来介绍了包括中心趋势度量和数据离散程度度量的数据统计特性以及数据的相似性和相异性度量。最后为读入数据与列联分析和图形显示的案例分析。
　　第3章为初始数据获取，本部分首先介绍数据获取的方式以及信息搜索方式，并对爬虫程序的基本原理和网络爬虫的分类进行了介绍。第3章重点介绍了简单HTML网页页面爬取、HTML网页中复杂表格爬取和非规整多页网页数据爬取的实际操作。
　　第4章为数据预处理，本部分在明确为什么进行数据预处理的基础上，介绍了数据清理（包括处理缺失值和处理噪声数据）、数据集成、数据变换（包括光滑、聚集、数据泛化、规范化、特征构造和数据离散化）、数据归约（包括数据立方体聚集、属性子集选择、维度归约、数值归约、离散化和概念分层）。第4章给出了数据预处理中非常重要的缺失值处理和主成分分析的案例讲解。

《算法导论：原理、模型与应用》内容梗概在信息爆炸的时代，高效、准确地处理和分析海量数据已成为各行各业的迫切需求。本书《算法导论：原理、模型与应用》旨在为读者提供一套系统而深入的算法学习体系，从基础理论出发，逐步过渡到复杂模型的设计与实际应用，帮助读者掌握解决各类计算问题的核心工具。本书并非数据分析或数据挖掘的直接教程，而是聚焦于构建高效算法的底层逻辑和实现方法，为理解和应用更高级的数据技术奠定坚实的基础。第一部分：算法基础与核心概念本部分将从算法最基本的定义和特性入手，阐述算法在计算机科学中的重要性。我们将详细介绍算法的五个基本要素：输入、输出、确定性、有限性以及有效性。在此基础上，深入探讨算法设计的几种基本策略，包括：分治法（Divide and Conquer）：讲解如何将一个复杂问题分解为若干个规模更小的相同问题，然后递归地解决这些子问题，最后将子问题的解合并起来得到原问题的解。我们将以著名的快速排序（Quicksort）和归并排序（Mergesort）为例，深入剖析其原理、复杂度分析以及在实际应用中的优势。动态规划（Dynamic Programming）：介绍当问题具有重叠子问题（overlapping subproblems）和最优子结构（optimal substructure）性质时，如何通过存储和重用已计算过的子问题的解来避免重复计算，从而提高效率。我们将通过经典问题，如斐波那契数列、背包问题（Knapsack Problem）和最长公共子序列（Longest Common Subsequence）等，来展示动态规划的强大威力。贪心算法（Greedy Algorithm）：阐述贪心算法的设计思想，即在每一步选择局部最优解，期望最终能得到全局最优解。我们将以最小生成树（Minimum Spanning Tree）中的Kruskal算法和Prim算法，以及活动选择问题（Activity Selection Problem）为例，讲解贪心算法的适用条件、设计步骤以及其局限性。回溯法（Backtracking）：介绍回溯法作为一种通过搜索来找到所有解的算法。当发现当期的路径不可能得到有效解时，就“回溯”到上一步，尝试其他可能的选择。我们将通过解决迷宫问题（Maze Problem）和N皇后问题（N-Queens Problem）来形象地展示回溯法的搜索过程。此外，本部分还将重点讲解算法的效率评估，即时间复杂度和空间复杂度。读者将学习如何使用大O符号（Big O notation）来分析算法的渐进行为，理解不同复杂度类别的算法对大规模数据处理的影响，以及如何选择更优的算法来满足性能需求。第二部分：图算法与网络流图作为一种重要的数学结构，在现实世界中有着广泛的应用，如社交网络、交通路线、通信网络等。本部分将聚焦于图算法的研究，为理解和解决与网络相关的问题提供坚实的理论基础。图的表示与基本操作：介绍图的邻接矩阵（Adjacency Matrix）和邻接表（Adjacency List）两种常用表示方法，并分析它们在不同场景下的优劣。在此基础上，讲解图的遍历算法，包括深度优先搜索（Depth-First Search, DFS）和广度优先搜索（Breadth-First Search, BFS），并阐述它们在查找连通分量、拓扑排序等问题中的应用。最短路径算法：详细讲解计算图中两个顶点之间最短路径的多种算法。包括单源最短路径算法——Dijkstra算法（用于非负权重的图）和Bellman-Ford算法（可处理负权重），以及所有顶点对之间最短路径算法——Floyd-Warshall算法。我们将通过实际例子，如城市间的最短交通路线规划，来展示这些算法的实际价值。最小生成树：深入探讨如何在一张连通的加权无向图中找到一棵包含所有顶点的树，且该树的所有边权之和最小。重点介绍Kruskal算法和Prim算法，并分析它们的复杂度。网络流（Network Flow）：介绍网络流模型，包括源点（source）、汇点（sink）、容量（capacity）以及流量（flow）等概念。重点讲解最大流最小割定理（Max-Flow Min-Cut Theorem），并介绍求解最大流问题的经典算法，如Ford-Fulkerson算法及其改进算法Edmonds-Karp算法。网络流在资源分配、调度问题、匹配问题等方面有着广泛的应用。第三部分：计算几何与字符串算法本部分将拓展算法的应用领域，深入研究计算几何和字符串处理中的经典算法。计算几何基础：介绍点、线段、多边形等基本几何对象，以及它们之间的关系。我们将探讨一些基本的计算几何问题，如点在线段上的判断、两线段的交点计算、多边形的面积计算等。此外，还会介绍凸包（Convex Hull）的求解算法，如Graham扫描法和Jarvis步进法，并阐述其在模式识别、图像处理等领域的应用。字符串匹配算法：深入研究如何在文本中高效地查找特定模式（字符串）的算法。我们将从朴素的字符串匹配算法开始，逐步介绍更高效的算法，如KMP（Knuth-Morris-Pratt）算法和Boyer-Moore算法。重点分析它们的预处理过程和匹配原理，以及在文本编辑器、搜索引擎等应用中的重要性。字符串相关的其他算法：简要介绍如最长公共前缀（Longest Common Prefix, LCP）的计算、后缀数组（Suffix Array）和后缀树（Suffix Tree）等更高级的字符串处理工具，并简述其在文本压缩、基因序列比对等领域的潜力。第四部分：高级算法模型与实践在掌握了基础算法和特定领域的算法后，本部分将介绍一些更高级的算法设计模型和解决复杂问题的策略。近似算法（Approximation Algorithms）：针对NP-hard问题，即通常无法在多项式时间内找到精确解的问题，介绍近似算法的设计思想。我们将讲解如何设计能够快速找到一个接近最优解的算法，并分析其近似比。随机化算法（Randomized Algorithms）：探讨利用随机性来设计算法的优势，如在某些情况下能获得更优的平均性能，或能简化算法设计。我们将以随机选择算法（Randomized Selection）和某些图算法为例，说明随机化算法的设计思路。并行与分布式算法基础：随着计算能力的提升，并行和分布式计算日益重要。本部分将简要介绍并行算法的基本概念，如任务分解、通信与同步，以及分布式算法在处理超大规模数据时的挑战与机遇。虽然不深入具体框架，但会为读者理解其底层逻辑打下基础。算法工程与优化：除了理论上的效率，算法在实际应用中还需要考虑工程实现的可行性、可维护性以及性能调优。本部分将讨论如何将理论算法转化为高效的实际代码，包括数据结构的选择、编译器优化、内存管理等方面。应用展望《算法导论：原理、模型与应用》并非直接教授如何使用某个特定的数据分析软件或如何进行数据挖掘的流程。相反，它提供的是构建和理解这些高级数据技术背后核心思想的基石。掌握了本书中的算法原理，读者将能够：理解数据科学工具的底层逻辑：许多数据科学库（如NumPy, SciPy, scikit-learn等）和框架（如Spark）都建立在高效算法之上。理解算法原理有助于深入理解这些工具的工作机制，从而更好地利用它们。设计和实现自定义解决方案：当面对特定或创新性的问题时，仅仅依赖现有的工具可能不够。本书提供的算法设计思想将赋予读者独立分析问题、设计和实现高效算法的能力。优化现有解决方案的性能：通过深入理解算法复杂度，读者可以识别现有解决方案的性能瓶颈，并提出改进建议，从而提升数据处理和分析的效率。为更深入的学习打下基础：对于未来希望深入研究机器学习、深度学习、人工智能等领域的研究者和工程师来说，本书提供的扎实算法基础将是不可或缺的。本书力求语言通俗易懂，理论讲解与实例分析相结合，旨在培养读者独立思考和解决问题的能力。通过学习本书，读者将不仅仅是算法的使用者，更是算法的理解者和创造者，为在日益增长的数据世界中导航，提供强大的理论武装和实践指导。

用户评价

评分☆☆☆☆☆

我对这本书的章节编排和学习路径设计抱有很高的期望。理想的学习路径应该是循序渐进，从基础概念的建立，到工具和方法的掌握，再到复杂项目的实战演练，最终能够独立进行项目规划和实施。我特别关注它对统计学基础的讲解是否足够扎实。数据挖掘和机器学习的很多陷阱都源于对统计学原理的误解，比如过拟合、多重共线性、偏差与方差的权衡等。如果这本书能用更贴近实际数据问题的语言来解释这些复杂的统计概念，而不是照搬教科书的定义，那无疑会让初学者少走很多弯路。此外，对于特定算法的“黑箱”问题，我希望作者能提供一些解释性AI（XAI）方法的入门介绍，比如LIME或SHAP值，以增强模型的可解释性和信任度。如果能提供一个贯穿全书、不断迭代的综合性项目案例，让读者带着这个案例始终练习，理论与实践的结合度会更高。

评分☆☆☆☆☆

从一个对职业发展有明确规划的角度来看，我非常在意这本书是否能帮助我构建一个在简历上亮眼的技能组合。现代数据科学家需要的不仅仅是单一技能，而是一个全面的“T型人才”结构。我希望这本书不仅仅停留于介绍如何运行代码，而是能探讨如何将分析流程工程化、产品化。例如，在讲解完模型训练后，是否能延伸到如何使用Docker进行环境隔离，如何通过API接口部署模型服务（Model Serving），以及如何搭建简单的监控仪表盘来跟踪线上模型的性能衰退。这些都是从“分析师”迈向“数据工程师”或“机器学习工程师”的关键桥梁。如果书中能涉及一些DevOps在数据科学中的应用实践，哪怕只是概念性的介绍，也会让这本书的实用性和前瞻性大大提升。毕竟，今天的学习目标是为了解决明天的实际生产问题，一本真正实用的教程，必须具有面向未来的视野。

评分☆☆☆☆☆

作为一个对可视化和叙事有较高要求的学习者，我非常看重数据分析结果的“表达”能力。数据分析的最终价值，很多时候体现在能否清晰、有说服力地向非技术背景的决策者传达洞察。这本书的目录中，虽然提到了探索性数据分析（EDA），但我更期待看到它在数据可视化工具的选择和使用技巧上有更具创造性的指导。例如，不仅仅是教我们如何调用Matplotlib或Seaborn的基础绘图功能，而是深入探讨如何通过交互式图表（如Plotly或D3.js的集成应用）来揭示复杂数据中的潜在模式。更进一步，如果能分享一些关于“数据故事板”的构建原则，如何将多个图表有机地串联起来，形成一个逻辑严密的叙事流，这将大大提升这本书的实用价值。很多技术书在讲完模型构建后就戛然而止，却忽略了“如何将模型结果转化为商业决策语言”这一关键步骤，我希望这本书能在这方面有所建树，让读者不仅会算，还会“说”。

评分☆☆☆☆☆

我最近的工作重点转向了需要处理海量非结构化数据的方向，这对传统的数据处理方法提出了巨大的挑战。因此，我非常关注这本书在“大数据技术”这块的阐述深度。很多教材在提到Hadoop或Spark时，往往只是蜻蜓点水，介绍一下框架的架构图，然后就匆匆转入简单的词频统计示例。我真正想了解的是，在TB甚至PB级别的数据量下，如何有效地设计数据管道（Data Pipeline），如何优化分布式计算的性能瓶颈，以及如何在新兴的流处理技术如Kafka或Flink中应用数据挖掘模型。如果这本书能提供一些关于分布式文件系统和内存计算框架的实战经验分享，比如如何进行资源调度、如何处理数据倾斜问题，那对于我当前的困境将是极大的帮助。此外，数据安全和隐私保护在当前的大数据应用中也日益重要，如果能穿插讲解一些合规性的技术实践，这本书的价值无疑会更上一层楼。期待它能展现出对现代数据架构的深刻理解，而不仅仅是停留在传统BI分析的范畴。

评分☆☆☆☆☆

这部书光是书名就让人充满期待，特别是“实用教程”这三个字，让人感觉这本书不是那种纸上谈兵的理论堆砌，而是真正能上手操作的宝典。我一直以来都在寻找一本既能系统讲解数据分析的基础概念，又能深入浅出地引导我们接触和使用数据挖掘工具的书籍。市面上很多教材要么过于侧重数学公式推导，让人望而却步，要么就是纯粹的代码手册，缺乏对核心思想的深入剖析。我希望这本书能在这两者之间找到一个完美的平衡点。从我初步翻阅的印象来看，它似乎真的抓住了这个精髓，不仅涵盖了数据清洗、特征工程这些必不可少的前期准备工作，还对几种主流的机器学习算法进行了详尽的讲解，这一点非常重要，因为在实际工作中，很多时候我们面对的不是标准化的数据集，而是充满噪声的真实世界数据。如果这本书能在案例选择上更贴近当前的热点领域，比如电商推荐系统、金融风控模型构建等方面，那就更完美了，毕竟理论最终还是要落脚到解决实际问题的能力上。我尤其关注它对不同编程语言和工具库的支持程度，希望它能提供足够灵活的视角，而不是局限于某一种固定的技术栈。