发表于2024-11-20
《R 语言数据分析项目精解:理论、方法、实战》适合人群:
互联网行业数据分析人员:通过阅读《R 语言数据分析项目精解:理论、方法、实战》,可以把学到的知识直接运用到生产实践中。
互联网产品运营人员:通过阅读《R 语言数据分析项目精解:理论、方法、实战》,可以了解数据分析团队一般是如何支持产品运营人员的,以及数据分析团队能帮助产品运营人员干什么,产品运营人员将来可以更好地给数据分析团队提出分析需求。
统计专业高校生:《R 语言数据分析项目精解:理论、方法、实战》可以作为行业实践案例教材,在学习书本知识的同时更好地了解实际情况,亲自动手进行实践,提高实战能力。
其他行业数据分析人员:可以了解互联网行业是如何进行数据分析和模型开发的,相互交流和学习。
致力于数据分析工作的爱好者:《R 语言数据分析项目精解:理论、方法、实战》可以作为数据分析从业人员相互交流、沟通的桥梁。
R语言爱好者:R语言的应用渗透到生产实践的方方面面,《R 语言数据分析项目精解:理论、方法、实战》既讲解互联网电商实际项目,又是R语言交流的平台。
本书以互联网电商企业为背景,抽象出工作中常见的数据分析问题,利用 R 语言和统计学列出了详细的解决方案和过程。本书共 9 章,前两章分别为总论和 R 语言入门知识,之后各章分别介绍了运营指标的建立、指标监控系统、假设检验及 AB 测试、变量筛选技术、用户画像系统、寻找优质用户和文本挖掘等内容。本书涉及到的统计方法有:指标增长幅度量化方法、层次分析法、时间序列模型、基于正态分布的一元离群点检验、傅里叶谱分析、假设检验、主成分分析、因子分析、模糊聚类、无监督下连续型变量离散化、逻辑回归模型和文本挖掘等。另外,本书提供了所有实例的 R 语言实现代码,总计 33 个自定义函数和数千行代码。本书适合数据分析从业人员、产品运营人员、统计专业学生和 R 语言爱好者阅读。
罗荣锦,应用统计学硕士、应用数学和国际经济与贸易双学士。有8年数据分析工作经验,先后从事过金融数据分析、网络游戏数据分析、B2B数据库营销以及互联网用户行为数据分析。现就职于携程旅行网担任资深数据分析师,主要从事用户行为分析研究、统计学与数据挖掘应用等工作,擅长统计建模,熟悉R语言、SAS、SPSS等数据挖掘工具。从事数据研究工作,一定要“耐得住寂寞,忍受得了孤独”。
第 1 章 互联网+统计学+R 语言1
1.1 互联网中的统计学1
1.1.1 “互联网+”的发展1
1.1.2 统计学的发展2
1.1.3 大数据时代的统计学2
1.2 R 语言――互联网与统计学的桥梁3
1.3 本书结构 5
第 2 章 R 语言基础 7
2.1 安装 R 语言 7
2.1.1 获取和安装 R 语言 7
2.1.2 安装 RStudio 9
2.1.3 R 包 10
2.1.4 帮助12
2.2 R 语言基本对象12
2.2.1 数据类型12
2.2.2 向量12
2.2.3 矩阵和数组19
2.2.4 列表27
2.2.5 数据框29
2.2.6 因子32
2.2.7 数据类型的辨别和转换39
2.2.8 数据类型和对象关系 39
2.3 工作空间和查看对象 40
2.3.1 工作空间和工作目录 40
2.3.2 遍历、创建、删除文件夹 41
2.3.3 查看对象的方法 42
2.4 数据导入和导出43
2.4.1 数据导入43
2.4.2 数据导出49
2.5 操作符和函数51
2.5.1 操作符51
2.5.2 函数54
2.6 数据集操作59
2.6.1 变量操作60
2.6.2 数据集操作63
2.6.3 数据集连接67
2.6.4 数据汇总68
2.7 控制流71
2.7.1 重复和循环71
2.7.2 条件执行73
2.7.3 next 和 break 74
2.8 自定义函数75
第 3 章 互联网运营指标的建立77
3.1 项目背景、目标及方案78
3.1.1 项目背景78
3.1.2 项目目标78
3.1.3 项目方案78
3.2 项目技术理论简介78
3.2.1 骨灰级流量指标 78
3.2.2 登录和激活80
2.2.3 访问深度和吸引力 81
3.2.4 订单指标85
3.2.5 网站或 APP 性能指标86
3.2.6 转化率87
3.2.7 层次分析法87
3.3 项目实践 92
3.3.1 搭建运营指标系统 92
3.3.2 制作对比型指标及趋势线 97
3.3.3 创建用户价值和活跃度指标 101
第 4 章 指标监控系统111
4.1 项目背景、目标及方案 111
4.1.1 项目背景111
4.1.2 项目目标111
4.1.3 项目方案112
4.2 项目技术理论简介112
4.2.1 时间序列基本统计量 112
4.2.2 数据观测与描述性统计 113
4.2.3 随机性115
4.2.4 周期性115
4.2.5 节假日模式识别 115
4.2.6 建模数据集的建立 118
4.2.7 指标监控方法(不含节假日)125
4.2.8 节假日指标监控方法 134
4.2.9 R 语言实例代码 135
4.3 项目实践 141
4.3.1 数据概览142
4.3.2 节假日模式识别 145
4.3.3 模型数据集的建立 155
4.3.4 指标监控(非节假日)160
4.3.5 节假日指标监控 176
4.3.6 总结181
第 5 章 用数据驱动业务――AB 测试 182
5.1 项目背景、目标和方案 182
5.1.1 项目背景182
5.1.2 项目目标183
5.1.3 项目方案183
5.2 项目技术理论简介183
5.2.1 自动化分流策略 183
5.2.2 整体评估指标185
5.2.3 概率论预备知识 186
5.2.4 假设检验191
5.2.5 三个问题197
5.3 项目实践 197
第 6 章 变量筛选技术204
6.1 项目背景、目标和方案 204
6.1.1 项目背景204
6.1.2 项目目标205
6.1.3 项目方案205
6.2 项目技术理论简介205
6.2.1 变量相关性206
6.2.2 变量筛选209
6.2.3 变量降维215
6.2.4 R 语言实例代码 225
6.3 项目实践 237
6.3.1 变量筛选238
6.3.2 变量降维243
第 7 章 构建用户画像系统 247
7.1 项目背景、目标和方案 247
7.1.1 项目背景247
7.1.2 项目目标248
7.1.3 项目方案248
7.2 项目技术理论简介248
7.2.1 用户画像的基本概念 248
7.2.2 用户画像应用领域 249
7.2.3 用户画像分类250
7.2.4 用户画像构建250
7.2.5 用户画像标签的数值处理方法 254
7.3 项目实践 256
第 8 章 从数据中寻找优质用户 261
8.1 项目背景、目标和方案 261
8.1.1 项目背景261
8.1.2 项目目标262
8.1.3 项目方案262
8.2 项目技术理论简介262
8.2.1 逻辑回归的基本概念 262
8.2.2 建模流程266
8.2.3 模型开发阶段269
8.2.4 模型验证阶段279
8.2.5 模型测试阶段285
8.2.6 商业应用流程288
8.2.7 R 语言实例代码 288
8.3 项目实践 295
8.3.1 数据探索295
8.3.2 数据处理297
8.3.3 建立模型302
8.3.4 模型验证304
8.3.5 总结308
第 9 章 文本挖掘――点评数据展示策略 309
9.1 项目背景、目标和方案 310
9.1.1 项目背景310
9.1.2 项目目标311
9.1.3 项目方案311
9.2 项目技术理论简介312
9.2.1 评论文本质量量化指标模型 312
9.2.2 用户相似度模型 313
9.2.3 情感性分析316
9.2.4 R 语言实例代码 321
9.3 项目实践 326
9.3.1 若干自定义函数 326
9.3.2 文本质量量化指标模型 329
9.3.3 用户相似度模型 334
9.3.4 情感性分析335
9.3.5 总结340
4.1.1 项目背景
还记得第3 章中那个运营团队负责人吗?在数据分析团队花了几周时间制定运营指标体
系,并且制作了趋势线指标及用户价值和活跃度之后,一天上午他又气呼呼地跑到数据分析总
监的办公室抱怨:每天查看运营分析报告简直是一件令人头疼的事情,指标太多了,并且一时
间难以有效察觉问题;另外,他想知道未来可能的情况,以便可以提前做准备。数据分析总监
听后找来了数据分析经理,把需求阐述了一遍。数据分析经理领命后又一次陷入沉思,线上指
标数量庞大,每天通过肉眼一个一个地跟踪确实耗费大量的人力成本和精力,效率极其低下,
若可以针对重要指标制定一套自动报警机制,把每天有异常的指标自动输出,则可以有效降低
人力成本。另外,运营团队负责人需要对未来的情况有一个了解,这就需要通过历史数据对未
来进行预测。于是,数据分析经理制定了项目目标。
4.1.2 项目目标
针对重要指标建立预测模型,通过预测模型的95%预测上下限建立监控范围。这样就可以
一举两得,预测模型可以对未来进行预估,另外95%上下限建立的范围可以用于监控,若当天
数值超出当天预测值的监控范围,则报警。最后,通过可视化工具前端展示整个需求就可以了。
4.1.3 项目方案
目标制定后,需要找出一套有效的技术手段来实施,经过团队讨论和调研,最终选择使用
时间序列模型对指标进行预测,并且确定了监控系统技术流程,如图4.1 所示。
前言
2009年,当我走出校园的时候,整个世界在我的眼睛里都是“灰色”的。就在几个月前,由于英语成绩差一分没能考上研究生,正好又赶上金融危机和工作找的晚,能有一家公司接纳我已实属庆幸。刚出校园的我并不知道该做什么事情,应用数学——这个什么都能做、什么又都做不了的专业让我头痛不已,浑浑噩噩工作了一年,并没有学到什么有用的东西。有一天傍晚,独自走在街边,无意间听到了歌曲《最初的梦想》:“最初的梦想紧握在手上,最想要去的地方,怎么能在半路就返航……”当天晚上,这首歌在我的脑海中不停地回荡,一直到深夜。生活不应该是这样,曾经的理想远没到绝望的地步。理想,这个已快被遗忘的东西重新回到了我的脑海中:我要做一名优秀的数据分析师。之后的一段时间,我拿起了统计学图书,每天晚上在华师大田家炳教育学院的教室中学习到很晚,统计学精妙的思想和优美的公式宛如一个气质典雅的妙龄女子,越品越有深意,越看越觉动人。渐渐的,我的生活也发生了改变,现有的工作已经不能实现我的理想,于是我开始寻找更高的平台。可是现实并不是自己想象的那样美好。有一次去张江某个科技公司面试,面试官看到简历后问我是哪里毕业的,最后很蔑视地把简历退给了我。回家的路上,我心如刀绞,心情久久不能平静。要让别人看得起你的唯一方式就是你足够优秀。之后很长一段时间,学习、实践成为了我的全部。在整个学习过程中,我发现无论是现有图书还是网上资料,大部分都是理论介绍,真正应用层面的资料很少,就算有也只是轻描淡写地飘过,前因后果和真正值得注意的地方都不会写得很详细。于是,在学习和钻研的同时,我做了大量的整理和记录。这些宝贵的资料成为了我之后工作中重要的“武器”,也是本书灵感、技术的源泉。一年之后,在一家公司面试时很巧合地又遇见了那位曾经退我简历的面试官,这次我以初试第一名的成绩进入了面试,在谈话的最后,我看着她的眼睛郑重地跟她说:我本科就读于东华大学,一所普通的211大学,但不妨碍我成为一名优秀的数据分析师,请把我的简历还给我。若干年后,我认识到了当年的举动纯属年少轻狂,但并不后悔,正是有了这次经历才让我知道一个人是可以通过努力改变人生轨迹的。
本书特色
上述经历只是想告诉阅读本书的读者,数据分析工作并不是一座高不可攀的山峰,对于大部分普通人来说,只要刻苦钻研和动手实践,一定能够感受到数据分析带来的快乐和成就感。钻研和实践离不开书籍,目前市场上的数据分析图书对理论部分的介绍比较多,真正实际应用的内容比较少,即便是实际应用,其核心内容也只是寥寥几句,如逻辑回归,简单的数据处理后直接进行模型拟合。在实际应用过程中,现实往往复杂得多,仅有上述简单粗暴的说明在实际工作中面对具体项目时往往达不到需要的效果。笔者后来读在职研究生时,记得华东师范大学的王静龙教授曾经说过:数据分析工作最怕的就是不管三七二十一,拿到数据后直接套模型。这就要求我们在学习时搞清楚模型方法背后的理论,在实际工作中判别模型运用的条件。本书正是想填补市场上这一方面的空缺,以互联网电商为背景,把一些普遍遇到的问题拿出来,以项目的形式呈现并提出具体的解决方案。相信读者看完本书后,对互联网电商及数据分析实际应用会有不同的感受。2014年,经过一番思想斗争后,我最终选择学习R语言。R语言语法简捷、资源众多、开源免费等优点在互联网企业中应用广泛。也许很多读者会把R语言与Python做比较,在我看来,数据分析师最主要的工作是快速实现算法,因此R语言绝对是数据分析师最好的选择。本书给出了所有实例的R语言源代码,共33个自定义函数和数千行R语言代码,每个自定义函数都实现了一个统计分析模块,读者可以直接使用或者根据自己的业务模型修改后使用。
如何阅读本书
本书第1章介绍互联网行业统计分析及全书的架构和说明。第2章详细介绍R语言入门的基础知识,如果读者对R语言的基础知识已经很熟悉了,可以跳过此章。后面几章都围绕着具体项目展开,其形式分为3部分:项目背景、目标和方案,项目技术理论简介,项目实践。项目背景、目标和方案为整章的导引,介绍整个项目的前后缘由及需要解决的问题。项目技术理论简介部分又分为两个部分,第1部分为该项目涉及到的统计学理论,方便读者回顾知识点;第2部分为涉及到的统计学理论的R语言实现方法。项目实践部分具体阐述项目解决的整个过程,包括详细的R语言源代码。
本书适合人群
●互联网行业数据分析人员:通过阅读本书,可以把学到的知识直接运用到生产实践中。
●互联网产品运营人员:通过阅读本书,可以了解数据分析团队一般是如何支持产品运营人员的,以及数据分析团队能帮助产品运营人员干什么,产品运营人员将来可以更好地给数据分析团队提出分析需求。
●统计专业高校生:本书可以作为行业实践案例教材,在学习书本知识的同时更好地了解实际情况,亲自动手进行实践,提高实战能力。
●其他行业数据分析人员:可以了解互联网行业是如何进行数据分析和模型开发的,相互交流和学习。
●致力于数据分析工作的爱好者:本书可以作为数据分析从业人员相互交流、沟通的桥梁。
●R语言爱好者:R语言的应用渗透到生产实践的方方面面,本书既讲解互联网电商实际项目,又是R语言交流的平台。
勘误和联系
由于时间仓促及水平有限,本书难免有错误和不准确的地方,恳请读者批评指正。具体联系方式如下。
此外,本书的勘误将会在我的个人博客(http://blog.sina.com.cn/u/1984071801)上发布。
致谢
感谢中国统计网的赵良和电子工业出版社的张慧敏老师,没有他们的介绍和指导,这本书就不会有创作的机会。
感谢我的妻子、女儿和岳母,正是你们的鼓励和支持,我才会走到今天。尤其是我的妻子,一直以来对我的学业和事业都无条件支持,你的鼓励和陪伴永远是我前行的动力。
感谢蒋庆、何丽丽在本书创作过程中给予的帮助。尤其是蒋庆,本书各个章节都有他的建议和校验,正是有了他的帮助,才使得本书写作顺畅地完成。
感谢东华大学和华东师范大学的老师和同学,从你们身上学到的东西让我终身受用。
最后,特别要感谢的是我的爸爸和已故的妈妈。11年的快乐童年是那样的短暂,对我的一生更是显得弥足珍贵。此后,在父亲和家人细心呵护、竭力培养下才有了我的今天。妈妈生命的最后时刻,跟我说的最后一句话是让我听话和好好读书,谨以此书献给天上的您,希望您在天堂开心、快乐。
罗荣锦
2017年4月
R语言数据分析项目精解:理论、方法、实战 下载 mobi pdf epub txt 电子书 格式 2024
R语言数据分析项目精解:理论、方法、实战 下载 mobi epub pdf 电子书很好,很快,希望有用!
评分我为什么喜欢在京东买东西,因为今天买明天就可以送到。我为什么每个商品的评价都一样,因为在京东买的东西太多太多了,导致积累了很多未评价的订单,所以我统一用段话作为评价内容。京东购物这么久,有买到很好的产品
评分很好的书,活动力度大,敢紧买了。开心
评分朋友推荐的,很不错,好好读
评分不得不说物流速度很给力,一两天就到了。书拿到后摸了下感觉纸张比较厚,印刷的也很清晰。内容还没看,不过相信阿里巴巴出品还是有保障的,赞一个?
评分很棒,很不错!是趁618的时候买的
评分东西很好,价美物廉,谢谢掌柜的!说实在,这是我购物来让我最满意的一次购物。无论是掌柜的态度还是对物品,我都非常满意的。掌柜态度很专业热情,有问必答,回复也很快,我问了不少问题,他都不觉得烦,都会认真回答我,这点我向掌柜表示由衷的敬意,这样的好掌柜可不多。下次需要的时候我还会再来的,到时候麻烦掌柜给个优惠哦!
评分朋友推荐的,适合入门,也适温故知新,终于等到JD读书节打折,超赞!
评分非常好,通过案例的形式讲解更容易理解,内容贯穿整个游戏生命周期,对工作也很有帮助
R语言数据分析项目精解:理论、方法、实战 mobi epub pdf txt 电子书 格式下载 2024