发表于2025-01-04
Alistair Croll、宋星、曹政、车品觉、王淮、吕厚昌等业界大咖联合力荐!
本书以四大行业实践谈数据驱动如何交付业务价值,破解企业数据驱动实践中面临的困惑、幻想与失望,传递真正数据驱动价值!
《数据驱动:从方法到实践》是从理论到实践的全面且细致的企业数据驱动指南,从作者的百度大数据工作说起,完整还原其从零到一构建百度用户行为大数据处理平台经历。详解大数据本质、理念与现状,围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何将数据驱动方案落地,并指出数据驱动的价值在于“数据驱动决策”、“数据驱动产品智能”。最后通过互联网金融、电子商务、企业服务、零售四大行业实践,从需求梳理、事件指标设计、数据接入阶段、实际应用四大阶段介绍数据驱动在不同领域的商业价值,全面展示大数据在各领域内的应用情况与趋势展望。
本书贴近企业真实场景,是广泛适用的普及读物,适合对大数据、数据驱动感兴趣的企业高管、决策者、创业者、IT人员、营销人员、产品经理、相关专业的学生等。
桑文锋,神策数据创始人兼CEO,浙江大学计算机科学与技术专业硕士,在百度任职8年,从无到有构建了百度用户日志大数据平台,覆盖数据收集、传输、元数据管理、作业流调度、海量数据查询引擎及数据可视化等。历任软件工程师、高级软件工程师、项目经理、高级项目经理、技术经理,2015年4月离职创建神策数据,针对企业客户推出用户行为分析产品——神策分析,帮助企业实现数据驱动。
此外,神策数据联合创始人兼CTO曹犟,神策数据联合创始人兼首席架构师付力力,神策数据资深算法工程师邹雨晗,神策数据架构师房东雨,神策数据算法工程师韩越,神策数据数据分析总监陈新祥,神策数据用户行为洞察研究院负责人张乔,以及神策数据分析师高娜、薛创宇、李金霞、朱静芸均参与了此书的写作。
文锋分享了他在商业数据的真知灼见,不盲目舶来,他明确地知道哪些理论在国内是行不通的,并传递出更本土化的理论。本书的结构和内容都经过了反复打磨,无论是从技术严谨性,还是从内容的实用性上看,都堪称互联网商业数据的可贵佳作。
——宋星,互联网数据官创始人、网站分析在中国创始人
数据的价值在哪里?作者根据其丰富的百度经历以及与众多客户深度碰撞后的思考,从方法论的高度全链路定义了数据采集、数据建模、数据分析与指标四大关键环节,并以实践诠释了如何用数据驱动决策、产品和业务,值得读者细细品味。
——赵军科,百联大数据总监
得益于文锋深厚的技术背景和丰富的实践经验,这本书清晰剖析了从采集、建模到分析运用的数据驱动全链条,值得每个数据人阅读。
——赵祺,今日头条增长团队负责人,前车来了联席CEO
在不远的将来,不管你处在什么行业什么职位,数据分析都是你不得不具备的一种能力。本书提供给你一个极好的知识储备的机会,它有三点非常值得推荐:*一,浅显易懂地表达大数据的底层技术,让你能够明白数据怎么产生,怎么加工,怎么存储和运算;第二,抛开了晦涩难懂的各种模型和算法,将*普适的数据洞察和分析的方法呈现给你,让你能迅速具备“阅读数据”的能力;第三,清晰地将电商、互联网金融、零售、SaaS软件等行业鲜活的数据应用案例呈现给你,让你加深对数据应用的理解。
——胡晨川,《数据化运营速成手册》一书作者,饿了么数据专家
文锋在百度的经历积累了大量本土化的业务实战经验,这本书浓缩了他近十来年宝贵经验的精华,一如神策分析的诞生,对于整个行业来说都是值得欣喜的事情。神策数据快速武装企业的数据部门,快速积累数据,并让所有在践行数据驱动业务增长的企业,都可以快速上路,让数据驱动*终成为每个公司的“标配”。
——刘晨,纷享销客联合创始人,数据中心总经理
随着大数据和智能时代的来临,数据驱动必然会变成人人都要具备的能力。本书里面的每条经验,都是一场场实战打出来的。与很多纸上谈兵的文字不同,本书的实例信手拈来,可想而知经历多少次的打磨才能有这样的效果。这使得本书内容对实际工作有着很强的指导作用,适合每个与数据打交道的人,常读常新。
——孙文亮,杏树林数据总监
作为数据驱动在初创公司的实践者,我们经历了从手动跑数据分析的“石器时代”到实时数据分析系统的“蒸汽时代”。工具已经成熟了,但在方法层面自己则一直瞎练野拳。一见到本书,就有相见恨晚之感,数据驱动终于有了成体系的“招式”!屠龙宝刀,要配上好武学,希望本书可以帮助更多公司实现数据驱动。
——黄震昕,造数科技创始人兼CEO
第1章 从百度大数据工作的经历说开 / 1
百度数据板块:网页数据和用户行为数据 / 3
搜索引擎发展 / 4
用户行为分析践行:百度知道的回答量提升 7.5% / 5
从零到一构建百度大数据分析平台 / 6
数据源与 Event 模型的重要性 / 9
大数据是屠龙术 / 10
第2章 大数据思维与数据驱动 / 11
大数据的概念 / 14
大数据之“大” / 14
大数据之“全” / 15
大数据之“细” / 16
大数据之“时” / 16
大数据的本质 / 17
数据驱动理念与现状 / 20
数据驱动的价值 / 20
企业内部数据驱动现状 / 21
理想的数据驱动 ―― “流” / 23
大数据时代到来的条件 / 24
数据采集能力增强 / 25
数据处理能力增强 / 26
数据意识的提升 / 27
第3章 数据驱动的环节 / 29
数据采集与埋点 / 32
数据采集的现状 / 32
数据采集遵循法则 / 34
科学的数据采集和埋点方式 / 36
数据的准确性 / 40
数据建模 / 44
数据模型与建模 / 44
多维数据模型 / 46
多维事件模型 / 49
多维事件模型的探索经历 / 52
数据分析方法 / 55
行为事件分析 / 55
漏斗分析 / 58
留存分析 / 61
分布分析 / 64
点击分析 / 67
用户路径 / 73
用户分群 / 75
属性分析 / 80
指标体系构建 / 82
第一关键指标法 / 82
海盗指标法 / 86
第4章 数据驱动产品和运营决策 / 89
数据驱动运营监控 / 91
用户获取(Acquisition) / 91
激活(Activation) / 92
留存(Retention) / 97
引荐(Referral) / 99
营收(Revenue) / 101
数据驱动产品改进和体验优化 / 102
数据驱动商业决策 / 104
数据驱动落地企业,要从管理者做起 / 106
数据驱动商业决策的价值 / 108
第5章 数据驱动产品智能 / 109
数据平台及用户智能 / 114
如何计算热门榜单 / 114
客服系统中的行为数据 / 114
为什么需要数据平台 / 115
数据平台提供的能力 / 116
数据应用与用户智能 / 119
基于用户行为数据的用户智能应用 / 119
用户智能分类:基于规则与机器学习 / 123
用户智能应用――用户画像 / 132
两种用户画像:User Persona与User Profile / 132
用户画像(User Profile)标签体系的建立 / 135
用户智能应用――个性化推荐 / 139
个性化推荐的概念 / 139
架构实现 / 140
数据流 / 142
业务分析与模型选择 / 143
实验与迭代 / 144
第6章 各行业实践数据分析全过程 / 147
互联网金融数据驱动实践 / 149
实践案例 / 150
企业服务数据驱动实践 / 158
数据驱动能够为企业服务做什么 / 159
面临的挑战 / 160
数据应用的阶段 / 161
实践案例 / 168
零售行业数据驱动实践 / 175
实践案例 / 176
电子商务数据驱动实践 / 186
打破企业发展经营困局:从粗放式到精细化 / 186
电商企业数据驱动瓶颈 / 187
实践案例 / 187
写在最后的话 / 197
企业内部数据驱动现状
数据固然能够帮助我们看透笼罩在创造新业务和产品周围的不确定性阴霾,不可否认,这对于一些初创企业有一定困难:一个创业公司创始人无法拿到更多的数据,他需要凭直觉来决策“做一款什么样的产品”。但是要让这个阶段尽量缩短,更可控一些,以更少的代价获得一个验证的效果。
当一家企业的产品已开始被市场接纳,而在实际工作中,企业在实现数据驱动的道路上,依旧困难重重。以下是创业公司实现数据驱动道路上的常见场景。
场景1:排队等待工程师跑数据
如图 2-6 所示,企业老板、运营、产品、市场等各部门都要通过数据工程师老王获取数据,整个流程包括沟通需求 → 分析数据源 → 升级数据采集系统 → 开发程序 → 提供结果等,老王忙得痛不欲生。当然,数据需求方都对数据获取的速度很不满意,有的人等不及,还是决定拍脑袋,最终导致产品迭代效率低下。
场景2:仪表盘只能看到宏观数据
如图2-7所示,仪表盘能够帮助各个团队负责人看到宏观数据,如销售额、用户数等,这在一定程度上帮助管理者做出科学决策。然而宏观的数据价值有限,这令执行者苦恼不已。比如昨天活跃用户数暴跌 20%,是什么原因?宏观的数据这时显然丧失价值,我们需要进行深入、精细化的分析,如按照渠道、地域等维度对数据进行分解,判断某渠道或某地域是否有大的波动,进行多维度、细粒度的下钻分析,才能快速定位问题,从而有的放矢地解决问题。
场景3:无法跨越数据孤岛的藩篱
如图2-8所示,企业内部的数据孤岛现象是普遍存在的,特别对一些集团化的企业孤岛效应更是明显。做大数据分析需要与不同部门沟通协调,获得审批权限,等待数据审批完成后才能统计数据,周期较长。并且,这些数据可能因为没有统一ID而无法打通。从企业自身数据的价值角度来说,应消除部门间的数据孤岛,让数据协作更好完成。
理想的数据驱动 —— “流”
上述三个场景是典型的“需求驱动”,即根据需求去找数据。业务方提出数据需求,工程师满足需求,加上排队等待,整个效率非常低,完成一个需求都要几天甚至几周的时间。那么,理想的数据驱动应该是怎样的?
我们应该反向思考这一问题,先把数据源整好,在这个基础上提供强大的分析平台,让业务需求提出者能够自助式(Self-Service)地完成数据分析需求,从串行变成并行,完成需求从几天时间缩短到几分钟甚至几秒钟,这才是理想中的数据驱动,如图2-9所示。
我从 2008 年开始专职从事数据方面的工作,到了 2012 年才慢慢想清楚——数据处理归根到底就是一条“流”。按照数据的流向,可以把数据处理分成5个阶段,如图2-10所示。
在这个过程中,每个业务人员和数据之间都需要有一个强大的工具,将数据规范化,处理数据模型。通过这个强大的分析工具,让这些业务人员在数据分析平台上自助式地完成自己的分析需求,如图2-11所示。
从 2012 年到 2015 年 4 月,我们都是在围绕这条“流”工作。不管是推进公司的日志采集结构化,还是提供更强大的查询引擎,我们都在尝试如何把这条“流”建设得更好。创业以来,我接触的企业超过 200 家,既有互联网创业公司,又有大的传统集团,这让我更加确信了这套思路的可行性 —— 不同行业、不同企业的业务千差万别,但在数据处理这件事上,或多或少都遵循“流”的思想。
推荐序 1
如果我们将企业比作人类,那么许多企业正处于壮年的巨大健康危机之中。曾经,世界500强企业的生命周期是65年,而现在仅有20年。近10年来,众多规模大、可靠的企业已被“数据新贵企业”所替代,例如苹果公司、亚马逊、腾讯、谷歌、百度、阿里巴巴等。
更糟糕的是,企业进行自我重塑的概率变得越来越低。公司战略委员会指出,95%的企业数字化的转变是失败的。《创新者的窘境》一书的作者克雷顿?克里斯滕森认为这一数字已达到99%。
当然也有好消息:科技赋予我们衡量一切事物的能力,我们能更好地认识自己。在这点上,曾经的任何时代都难以企及。
麻省理工学院的一项研究表明1,相比依靠直觉来实现决策的企业,那些通过数据驱动实现决策的企业拥有更高的生产效率和利润。这类企业的生产效率和利润普遍高于竞争对手5%~6%。显然,未来是否拥有数据分析能力,将决定一家企业是成功,还是逐渐销声匿迹。
我们经常说,数据是新石油。数据的准确性代替了“意见”的主观性,让我们更好地了解我们的供应商、我们的顾客以及我们自身。同时数据也是人工智能的基础,因为我们正是通过数据的运用来实现机器学习的。
对石油来说,一直被埋藏在地下的石油并无价值。它的价值在于应用,石油开采需要一个“生态系统”:炼油厂、加油站、汽车、规则、道路等。数据也是如此,仅仅收集数据并无价值,你需要提取、清洗、分析,让分析结果得以执行与运用,并反馈至“生态系统”中。
随着自动化操作和机器学习代替了部分传统工作,我们为此很疑惑:还有哪些工作需要人类来做?答案其实很简单:我们需要辩证地思考究竟人类需要机器来做什么。无论是初入职场的新人、分析师,还是企业管理者,提出正确的问题是他们最重要的能力。
但是,这实现起来很难。提问者既需要了解企业当前的商业模式、竞争格局以及可控资源,也需要意识到现有商业模式已经变得过时、不稳定,而且亟待改变。
信息随时随刻在产生,它为世界指出两条路:一条路布满着那些故步自封、因循守旧企业的“尸体”;另一条则为拥有数据思维和掌握数据驾驭能力的企业铺就康庄大道。而此时此刻,你正处于交叉路口,手中恰好握着一张指引正确路径的“地图”。
Alistair Croll
哈佛商学院访问执行官,Coradiant 公司联合创始人
《精益数据分析》一书作者
推荐序2
数据驱动的概念已经被各个行业广泛认同,但认同与落实之间,还是有相当的距离,这里最大的障碍是,技术人员缺乏对业务的理解,而业务人员又无法理解和充分利用技术,有数据却用不好、不会用是很常见的弊病。即便是一些有数据分析、研发实力的企业,也面临从需求到实现的巨大研发成本和时间周期等问题,导致决策效率低,对瞬息万变的市场情况,无法做出快速有效的应对。
百度早期的技术资源有限,主要技术资源优先考虑产品研发迭代,对数据分析的支持力度不足。2005年我参与创建百度的商业分析部门,因为无法得到充足的技术资源,只好自己动手,在产品部门架构内处理数据,解决业务诉求所需的数据分析,所幸那时候百度的业务数据规模有限,每日的部分业务数据日志尚处于GB级别,按照我们有限的技术能力,单服务器勉强可以应付。
2007年之后,百度的业务规模急速扩大,业务部门也越来越重视数据决策方向的诉求,幸而此时技术资源也得到了有效的扩充,在桑文锋同学的有力支持下,百度的数据分析能力和整体架构都得到了翻天覆地的革新和发展,针对诸多核心产品升级,数据决策的意义和价值也得到了充分的彰显。
能解决一个巨头公司数据分析领域的技术瓶颈,提升数据决策能力,已经是一项了不起的成就,但文锋的目标显然不止于此,搭建一套通用灵活的技术架构,显然有更广阔的应用场景。让一线业务人员在不需要充分理解技术的前提下,快速针对业务诉求完成数据分析,实现数据决策,这是神策数据(Sensors Data)项目的一个愿景。
我从百度出来后进入了游戏行业,后来辗转到海外发展,对国内行业的现状了解不多。说来也有意思,好几个游戏行业同行创业者,在不同场合主动跟我提及神策数据非常有价值,对他们的业务帮助很大,我才注意到文锋的创业项目,并钦佩于他们现在所取得的成就,这个成就,不是说这家公司收了多少服务费,赚了多少钱,而是他们真的有效提升了整个行业的数据决策能力,有效降低了数据决策的操作成本和门槛,这个价值是从业者们尤为要感谢的。
感谢文锋,提前让我阅读了这本书籍,我觉得,对于希望提升数据决策能力、了解数据决策真相的从业者,这本书是很好的读物,其内容并非晦涩难懂的技术描述,而更多是对数据驱动和数据分析的理解,并以亲身案例作为辅助讲解。建立正确的认识是做好数据决策的前提,而其中所提到的很多问题场景,相信也是很多从业者经常遇到和面对的。
以上,希望对您的阅读和选择,有所帮助。
曹 政
曾任百度商业分析部经理,现知名IT自媒体博主
互联网游戏出海领域创业者
推荐序3
我一直觉得数据分析是一种修行,“修”的是思考的能力,“行”的是落实成为方案的方法。经过多年的工作,正是不经一番寒彻骨,怎得梅花扑鼻香。回想我与文锋初次见面便谈到数据化的过程,阿里与百度都经历过这样的挑战,我想这便是他请我写推荐序的原因吧。
以前企业中只有一小部分人具备数据分析的能力,随着近几年数据平台的成熟,数据从收集到使用越来越方便,以往想要出一份分折报告可能要等上数周的日子已经一去不复返。曾经有一位业务方代表对我说过,在等候分析报告出来与拍脑之间,我选择了后者,因为时机更重要。可想而知决策的速度很关键。在后信息时代,DT1的普适度将变得更直接、简单。未来的智能时代,我很相信很多分析报告也将被自动化的智能决策所取代,届时智慧的人类也将要“升级”到“神策”的阶段,人更要学会驾驭决策上的决策、逻辑上的逻辑。
当然,理想归理想,在智能决策的路上还需要很多同行们努力,而文锋在书内的描述正是他这几年创业的发现与精华。
车品觉
红杉中国专家合伙人、全国信标委大数据标准工作组副组长
推荐序4
当今物联时代,业界同仁都在谈大数据和人工智能。大数据已成众多公司的核心资产,大数据战略已成众多公司的核心战略。之所以如此,一是因为大数据技术的普及,二是因为大数据已经为无数企业带来了实打实的核心价值。大数据4V1中最重要的还是接地气的价值驱动——Value。使用大数据技术,挖掘大数据价值,不断优化用户体验、客户体验、产品体验,已然成为当今企业成功的金科玉律。
1996年我在美国正式进入职场。我在职业生涯的早期就对数据情有独钟,那个时候还没有大数据这个提法。这不仅仅是出于对数据技术的喜好,也是因为我在做数据项目的时候,真正体会到了数据给业务带来的不同。1998年我加入Yahoo!,成为第一个专门做数据的工程师,用一句话总结我在Yahoo! 7年的工作,那就是使用大数据更好地理解用户,驱动用户产品创新,更好地服务用户。2005年我离开Yahoo!加入Google是源于好奇心,当时Google的流量是Yahoo!的1/10,但收益却跟Yahoo!一样多。为什么搜索会这么赚钱?用一句话总结我在Google 6年的工作,那就是使用大数据能更好地理解客户广告诉求,驱动广告产品创新,更好地服务广告主。
2011年我有幸加入百度带领数据团队。百度是一个对大数据工作非常重视的公司。大数据工作是百度的核心竞争力之一,其核心搜索业务也是建立在大数据技术 数据驱动:从方法到实践 下载 mobi epub pdf txt 电子书 格式
数据驱动:从方法到实践 下载 mobi pdf epub txt 电子书 格式 2025
数据驱动:从方法到实践 下载 mobi epub pdf 电子书书还没有 但粗看像一本宣传书
评分很好,从职业生涯开始讲起,娓娓道来
评分这本书算是看别人推荐吧,作者也是神策的,老板,所以还是挺有一定价值的。
评分趁着活动买了不少书,价格都很合适,还没看内容
评分对大数据方面的知识很有深度,推荐。
评分很好,快递超快。经常购买了~
评分神策数据的大广告书,更多的是网站公司的大数据分析应用
评分神策数据的大广告书,更多的是网站公司的大数据分析应用
评分没看,看评价不错
数据驱动:从方法到实践 mobi epub pdf txt 电子书 格式下载 2025