发表于2024-11-19
帮你构筑数据科学的逻辑思维,帮你找到数据科学的入门钥匙
作为认知科学的延伸,数据科学一方面应该越来越引起广大大数据工作者的重视,另一方面也要撩开自己的神秘面纱,以尤为亲民的姿态和每位大数据工作者成为亲密无间的战友,为用科学的思维方式进行工作做好理论准备。《数据科学家养成手册》从众多先贤及科学家的轶事讲起,以逐步归纳和递进的脉络总结出科学及数据科学所应关注的要点,然后在生产的各个环节中对这些要点逐一进行讨论与落实,从更高、更广的视角回看科学及数据科学在各个生产环节的缩影。《数据科学家养成手册》并不以高深的数学理论研究作为目的,也不以某一种计算机语言编程作为主线脉络,而是在一个个看似孤立的故事与工程中不断拾遗,并试着从中悟出一些道理。
《数据科学家养成手册》适合大数据从业人员和对大数据相关知识感兴趣的人,初级和中级程序员、架构师及希望通过对数据的感知改进工作的人,产品经理、运营经理、数据分析师、数据库开发工程师等对数据分析工作敏感的人,以及所有对数据科学感兴趣并希望逐步深入了解数据科学知识体系的人阅读。
高扬,北京邮电大学计算机专业毕业,重庆工商大学管理科学与工程专业硕士研究生事业导师。10年以上IT行业工作经验,3年海外工作经验。2010年后一直专注于数据库、大数据、数据挖掘、机器学习、人工智能等相关领域的研究。曾在金山软件西山居任大数据架构师,负责大数据平台构架与搭建。现任欢聚时代资深大数据专家,负责大数据、深度学习等基础技术与理论研究和实际产品的结合。
在大数据时代,招式纯熟(编程技术强)的“攻城狮”要跻身一流高手行列,缺的就是内功心法(数据科学概念和方法)。这本别开生面的数据科学书,正是你苦觅不得的心法——关键还很好看,历史人文典故和数据公式融合,读来全无枯燥之感。
驭势科技联合创始人、CEO 吴甘沙
数据科学让我们越来越多地观察到人类社会复杂的行为模式。数据科学家需要激情与耐心,他们具备商业头脑和数据素养,拥有获取数据、理解统计和机器学习的算法实现、通过软件编程解决实际问题的能力,为决策支持提供有效沟通的数据思维和数据洞察力。这是一个值得付出时间和精力的职业领域,相信这本书是您实践梦想的开始。
中国传媒大学新闻学院教授、博导,中国市场研究行业协会会长 沈浩
在理想年代,读书的少年都想成为科学家,互联网浪潮奔涌,又都想当创业大牛,而未来是数据驱动的智能时代,数据科学家将独领风骚。这本书里既有对科学史的追溯和思辨,又有对数据科学领域相关知识深入浅出的讲解,是非常难得的普及读物,更是开启新时代的一把钥匙。
饿了么北京研发中心总经理 史海峰
数据科学是在我们工作的方方面面都发挥着作用的基础学科。用科学的眼光看待数据、收集数据、分析数据,用科学的眼光审视数据、解读数据,是未来每个人都应该具备的能力。这本书通俗易懂,以小见大,适合绝大多数接触数据岗位的人员阅读。
云技术社区创始人 肖力
认知篇
第1章 什么是科学家 2
1.1 从太阳东升西落开始 2
1.1.1 农历 2
1.1.2 公历 5
1.1.3 小结 7
1.2 阿基米德爱洗澡? 7
1.3 托勒密的秘密 10
1.4 牛顿为什么那么牛 11
1.4.1 苹果和三大定律 11
1.4.2 极限和微积分 12
1.5 高斯——高,实在是高 15
1.6 离经叛道的爱因斯坦 17
1.7 本章小结 20
第2章 什么是科学 23
2.1 科学之科 23
2.2 边界的迷茫 23
2.3 科学之殇 26
2.4 本章小结 27
第3章 数据与数学 28
3.1 什么是数据 28
3.2 数学的奥妙 29
3.2.1 《几何原本》 29
3.2.2 《九章算术》 30
3.2.3 高等数学 34
3.3 本章小结 37
第4章 数据科学的使命 38
4.1 走近数据科学 38
4.1.1 介质 38
4.1.2 从信息到数据 41
4.1.3 数据科学的本质 43
4.2 万能的数据科学 44
4.2.1 测量 44
4.2.2 统计计算 47
4.2.3 指标 52
4.3 使命必达 53
4.3.1 高效生产 53
4.3.2 破除迷信 56
4.3.3 目标一致与不一致 57
4.4 本章小结 58
第5章 矛盾的世界 59
5.1 古希腊——学者高产的国度 59
5.2 矛盾无处不在 61
5.3 世界究竟是否可知 63
5.4 薛定谔的“喵星人” 64
5.5 本章小结 66
第6章 实验和哲学 68
6.1 朴素的认知方法 68
6.1.1 眼见为实 69
6.1.2 归纳与总结 70
6.2 哲学靠谱吗 71
6.3 数学的尽头是哲学 72
6.4 本章小结 73
第7章 辩证思维 74
7.1 要不要辩证有多大区别 74
7.2 谁对谁错 76
7.3 做到客观不容易 77
7.4 观念的存弭 79
7.5 本章小结 82
分化篇
第8章 统计学 86
8.1 数理统计鼻祖—阿道夫·凯特勒 86
8.2 统计就是统共合计 88
8.3 数据来源 90
8.4 抽样 91
8.5 对照实验 91
8.6 误差 94
8.6.1 抽样误差 94
8.6.2 非抽样误差 96
8.7 概括性度量 97
8.7.1 集中趋势度量 98
8.7.2 离散程度度量 100
8.7.3 小结 100
8.8 概率与分布 100
8.8.1 数学期望 102
8.8.2 正态分布 103
8.8.3 其他分布 106
8.9 统计学与大数据 107
第9章 信息论 109
9.1 模拟信号 109
9.2 信息量与信息熵 110
9.3 香农公式 111
9.4 数字信号 112
9.5 编码与压缩 113
9.5.1 无损压缩 114
9.5.2 有损压缩 117
9.6 本章小结 126
第10章 混沌论 127
10.1 洛伦兹在想什么 128
10.2 罗伯特·梅的养鱼计划 129
10.3 有限的大脑,无限的维 130
10.4 谋杀上帝的拉普拉斯 132
10.5 庞加莱不是省油的灯 134
10.6 未知居然还能做预测 137
10.7 本章小结 137
第11章 算法学 139
11.1 离散的世界 139
11.2 成本的度量 142
11.3 穷举法——暴力破解 143
11.4 分治法——化繁为简 152
11.5 回溯法——能省则省 154
11.6 贪心法——局部最优 155
11.7 迭代法——步步逼近 156
11.7.1 牛顿法 157
11.7.2 梯度下降法 158
11.7.3 遗传算法 159
11.8 机器学习——自动归纳 161
11.8.1 非监督学习 162
11.8.2 监督学习 164
11.8.3 强化学习 176
11.9 神经网络——深度学习 178
11.9.1 神经元 178
11.9.2 BP神经网络 180
11.9.3 损失函数 181
11.9.4 非线性分类 183
11.9.5 激励函数 187
11.9.6 卷积神经网络 189
11.9.7 循环神经网络 191
11.9.8 小结 194
11.10 本章小结 195
实践篇
第12章 数据采集 198
12.1 数据的源头 198
12.2 日志收集 199
12.2.1 实时上传 200
12.2.2 延时上传 203
12.2.3 加密问题 204
12.2.4 压缩问题 205
12.2.5 连接方式 206
12.2.6 消息格式 208
12.2.7 维度分解 210
12.3 这只是不靠谱的开始 211
12.4 本章小结 212
第13章 数据存储 213
13.1 读写不对等 213
13.1.1 读多写少 214
13.1.2 读少写多 214
13.1.3 读写都多 215
13.2 进快还是出快 216
13.2.1 最快写入 216
13.2.2 读出最快 218
13.3 文件还是数据库 218
13.4 要不要支持事务 219
13.5 表分区和索引 221
13.5.1 表分区 222
13.5.2 索引 222
13.6 稳定最重要 225
13.7 安全性和副本 226
13.7.1 RAID 226
13.7.2 软冗余 228
13.8 本章小结 229
第14章 数据统计 230
14.1 此“统计”恐非彼“统计” 230
14.2 要精确还是要简洁 234
14.3 统计是万能的吗 235
14.4 注意性能 237
14.5 本章小结 238
第15章 数据建模 239
15.1 模型是宝贵的财富 240
15.2 量化是关键 241
15.3 该算法出马了 241
15.3.1 统计学模型 242
15.3.2 线性关系 243
15.3.3 复杂的非线性关系 243
15.4 算法的哲学 244
15.5 本章小结 245
第16章 数据可视化与分析 247
16.1 看得见,摸得着 247
16.2 颜色很重要 247
16.3 别说布局没有用 249
16.3.1 由上而下,由简而繁 249
16.3.2 总-分,分-总,总-分-总 251
16.3.3 毗邻吸引 252
16.4 有图就别要表格 253
16.5 分析的内涵 254
16.5.1 相关性分析 255
16.5.2 预测分析 256
16.5.3 其他分析 257
16.6 有趣的统计应用 257
16.6.1 不规则图形的面积 258
16.6.2 套出你的实话 258
16.6.3 巧测圆周率 259
16.7 仁者见仁,智者见智 260
16.8 永恒的困惑 261
16.9 本章小结 263
第17章 数据决策 264
17.1 决策就是“拍脑袋” 264
17.2 哪里有物质,哪里就有数据 265
17.2.1 目的的统一 265
17.2.2 数据胜于雄辩 266
17.3 这是风险博弈 267
17.3.1 性价比优先 267
17.3.2 小迭代至上 268
17.3.3 不要“输不起” 268
17.3.4 留得青山在 269
17.4 本章小结 270
第18章 案例分析 272
18.1 K线图里的秘密 272
18.1.1 什么是市场 273
18.1.2 谁在控制价格 273
18.1.3 货币价格的形成 276
18.1.4 零和博弈 277
18.1.5 涨跌都盈利 278
18.1.6 价格的预测 279
18.1.7 形态 280
18.1.8 K线图周期 282
18.1.9 造市商与点差 283
18.1.10 科学分析 284
18.1.11 小结 317
18.2 数学能救命 317
18.2.1 阴云下的大西洋 317
18.2.2 护航船队的救星 318
18.2.3 数学家的天下 324
18.2.4 小结 324
18.3 人人都能运筹帷幄 325
第19章 与本书相关内容的问与答 326
后记 333
附录A 335
A.1 VMware Workstation的安装 335
A.1.1 VMware简介 335
A.1.2 安装准备工作 335
A.2 CentOS虚拟机的安装 338
A.2.1 下载DVD镜像 338
A.2.2 创建VMware虚拟机 338
A.3 Ubuntu虚拟机的安装 344
A.4 Python语言简介 350
A.4.1 安装Python 350
A.4.2 Hello Python 350
A.4.3 行与缩进 350
A.4.4 变量类型 351
A.4.5 循环语句 352
A.4.6 函数 353
A.4.7 模块 354
A.4.8 小结 354
A.5 Scikit-learn库简介 355
A.6 安装Theano 356
A.7 安装Keras 356
A.8 安装MySQL 357
A.9 安装MySQL-Python驱动 358
A.10 MT4平台简介 359
参考文献 363
序
十几二十年前,读书是学习新技术的不二法门。当时如果要学习一门技术,都需要买上几本“砖头书”,一边阅读,一边动手,一页一页“啃”下来。很多在今天叱咤风云的高手,当年都是用这种方式打下基础的。
最近几年,技术学习的方式发生了深刻的变化,大量的在线视频课程、交互式学习环境、开箱即用的工具箱,使技术学习的效率大幅度提升,特别是在动手能力方面,培训效率有了质的飞跃。最近一年,受人工智能领域突破性进展的鼓舞,机器学习和数据科学成为技术圈中的显学,而在线学习成为主流的学习方式。在这种情况下,大批学习者仅仅看过一些视频教程,按要求在Jupyter Notebook中做过一些练习,就基本具备动手解决问题的能力,可以上岗了。
这当然很好。但是,倘若你想在某一个领域取得真知,读书仍然是不可或缺的手段。中国信息安全领域的领军人物冯登国院士曾经说,以他的经验,想要真的搞懂某一个领域,非得深入“啃”至少一本书不可。读书的效率相对于听课、看视频要低得多,而多维的知识体系通过单维的文字表达出来,也给理解带来了挑战。然而,唯其有这种挑战,才需要读者进入深度思考状态,使读书成为一个推敲、琢磨、设问和破解的过程。不经过这个过程,我们所学到的知识一般来说只能是浮于表面的,很难达到“知其然知其所以然”的高度。正因如此,我们已经开始发现,仅通过在线视频和动手练习的学习者,对于相关领域的理论掌握经常是肤浅的。可以说,到目前为止,读书作为一种学习手段,依然是其他方式无法取代的。
机器学习和数据科学领域有几本非常重要的著作,每一个有野心的学习者都应该选择至少一本深入研究。Christopher Bishop于2006年出版的Pattern Recognition and Machine Learning,Kevin Murphy 2012年的巨著Machine Learning: A Probabilistic Perspective,斯坦福大学两位机器学习泰斗Trevor Hastie和Robert Tibshirani及其学生合著的An Introduction to Statistical Learning,当然还有Ian Goodfellow和Yoshua Bengio最近出版的Deep Learning——称这几本书为这个领域的“四书五经”,应该没有争议。
但是,这几本书有一个共同的问题——都是按照教材的体例编写的,所以都是尽全力系统化地介绍知识,对这个领域丰富多彩的应用、历史、人文和故事却很少展开论述。而要成为一名数据科学家,仅有知识和动手能力是不够的,还需要有相应的素养,这包括特有的思维方式、价值观,对相关历史背景和掌故的了解,以及对数据科学社区的认知和互动——这恰恰是本书的价值。
作者把数据科学放在一个更广阔的背景之中,从数学、统计学、方法论甚至认知论的层面出发,讨论数据科学的内涵和外延,内容丰富,旁征博引,语言生动,灵活有趣,帮助读者站在一个更丰富的势场中认识数据科学,理解数据科学的基本思想。尤为令人欣喜的是,作者将信息论、混沌理论纳入讨论之中,表明作者敏锐地注意到数据科学与系统科学和认识论的深层联系,这是难能可贵的。从这个角度来解说数据科学的书,应该说是中国首本,即使在全球范围内也是独具特色的。为此,我们愿意向读者推荐本书,并相信读者一定能从中获得非常有价值的启发。
CSDN、AI100创始人 蒋 涛
AI100合伙人 孟 岩
数据科学家养成手册 下载 mobi pdf epub txt 电子书 格式 2024
数据科学家养成手册 下载 mobi epub pdf 电子书不错哦!正版在线,好书,值得推荐哦
评分速度很快,东西不错,相信京东的品质
评分很好,技术书籍,值得一看。
评分尽管耽误很长时间,不过书还是不错的
评分宝贝不错,默认好评,字数
评分经典的好书,非常值得看
评分领导买了送人的,还不错。
评分书的内容和结构很有意思。
评分书不错,快递很给力,继续加油
数据科学家养成手册 mobi epub pdf txt 电子书 格式下载 2024