编辑推荐
本书引入了丰富多彩的案例,涉及经济、管理、天文、医药、生物、体育等领域,并利用R软件来分析和计算,增强了初学者对贝叶斯统计的学习兴趣,为其在各个领域使用贝叶斯统计打下了基础。
内容简介
贝叶斯统计学是现代统计学中非常有特色的内容,应用范围极其广泛。本书系统地介绍了贝叶斯统计的基本思想及其来龙去脉、先验分布和后验分布的概念以及寻求方法、贝叶斯统计推断、MCMC计算方法以及统计决策理论等。为使初学者更好地理解贝叶斯统计并培养起对贝叶斯统计的兴趣,本书引入了丰富的案例,涉及经济、管理、天文、医药、生物、体育等领域。本书专门制作了一个专用R软件包,把书中所有案例数据和主要程序都放入了此压缩包中,增强了师生教学与互动的效果,以便激发初学者对贝叶斯统计的兴趣,掌握贝叶斯统计的精髓,为贝叶斯统计的应用打好基础。
本书可作为高等院校统计、经济、金融、管理、医药、生物等专业高年级本科生和研究生的贝叶斯统计课程的教材或参考书,也可作为对贝叶斯统计感兴趣人士的参考用书。
作者简介
黄长全,男,香港中文大学统计学哲学博士(PhD.),厦门大学经济学院统计学系副教授。教授统计学、计量经济学、时间序列分析、企业风险管理、贝叶斯统计等课程。
精彩书摘
俗话说,万事开头难。为了提高读者的学习兴趣,本章从一个贝叶斯统计的真实应用开始,介绍贝叶斯统计的基本概念和公式,概述贝叶斯统计学的历史和发展趋势以及与经典统计学的比较。
1.1引言
1.1.1一个美国书呆子的故事
在2012年美国总统大选期间,一个一直都被人称作“书呆子”的美国人纳特·西尔弗(Nate Silver,生于1978年1月13日)用以统计为主要工具的模型准确预测了美国全部50个州的选举结果。在大选日当天早晨,他的模型最新预测到时任总统巴拉克·奥巴马(Barack Obama)将有90.9%的可能获得多数选举人票从而连任,而选举结果确确实实就是奥巴马总统赢得了这次美国总统大选。于是,他凭借自己的模型及其准确的预测打败了所有时事政治记者、政党媒体顾问和政治评论员。“你们知道谁是今晚(大选日当夜)的赢家吗?”美国全国广播公司新闻节目主播自问自答,“是纳特·西尔弗”。其实,早在2008年的美国总统大选期间,西尔弗就准确预测了整个美国50个州中49个州的选举结果。两次极为准确的预测,让这个“书呆子”扬眉吐气、名声大震,各种荣誉接踵而来,甚至于被四所大学授予了四个荣誉博士学位,当然这也让我们从事统计领域的人士大感骄傲。西尔弗的预测模型有什么神秘之处呢?答案就是其利用了大数据和我们将要学习的贝叶斯统计理论和方法。
1.1.2贝叶斯统计简史
贝叶斯统计学是以英国人托马斯·贝叶斯(Thomas Bayes,1702—1761)的名字命名的。贝叶斯是一位英国牧师,但他却热衷于概率统计等科学研究,还是英国皇家学会会员。遗憾的是,现在人们对他的生平却知之甚少,甚至没有人知道贝叶斯的相貌如何,现存所有他的画像都是传说,并不能证实是他的真容。贝叶斯统计学起源于贝叶斯逝世后公开发表的一篇论文——《论一个概率理论问题的求解》(An Essay Towards Solving a Problem in the Doctrine of Chances)。在贝叶斯去世两年之后,这篇论文由他的朋友理查德·普莱斯(Richard Price)介绍到英国皇家学会,引起了该学会的注意和讨论,并于1763年发表在《皇家学会哲学会刊》上。在该篇论文中,贝叶斯首次提出了贝叶斯统计的基本思想和归纳推理方法。
00
00
五十一年后,法国数学、统计学、天文学和物理学家拉普拉斯(P.S.Laplace,1749—1827)在1814年出版了著作《关于概率的哲学评述》(A Philosophical Essay on Probabilities),在该著作中他将贝叶斯提出的公式进行了推广并导出了一些很有意义的新结果。然而,之后相当长的一段时间里虽然有一些理论和应用研究,但由于其理论与经典统计学相比显得另类,而且人们对它的理解还不够深刻,在应用上其计算复杂且计算量巨大,因此贝叶斯统计理论和方法长期未被普遍接受,甚至被一些学者看作一种旁门左道。直到20世纪中叶开始,有一批统计学家,例如杰弗里斯(H.Jeffreys,1939)、萨维奇(L.J. Savage,1954)、雷法和施莱弗(H.Raiffa and R.Schlaifer,1961)以及伯杰(J.O.Berger,1985)等,才对贝叶斯统计做了更加深入的研究,特别是罗马尼亚(匈牙利)裔美国统计学家阿布拉汉·瓦尔德(Abraham Wald,1939,1950)通过将损失函数引入统计学并利用决策概念和思想把经典统计推断纳入决策理论框架中而形成了统计决策理论,这样经典统计学和贝叶斯统计学通过决策理论有机地联系到了一起,才得到了很有意义的理论结果。从20世纪中叶开始,在一批学者的努力下,人们对贝叶斯统计在观点、方法和理论上的认识不断加深。从20世纪90年代以来,伴随着计算机科学技术的发展和有效的贝叶斯统计计算方法的发现和应用,贝叶斯统计解决了相当一批经典统计难以解决的实际问题,从而得到了人们极大的重视。现在,贝叶斯理论和方法获得了人们的普遍接受,贝叶斯统计不仅在统计学本身而且在众多学科中都得到了广泛的应用,解决了各个不同学科中大量的复杂统计问题。贝叶斯统计表现出了勃勃生机和欣欣向荣的景象,在统计学领域牢牢地站稳了一席之地,也成为现代统计学的重要分支,可以这么说,没有学习过贝叶斯统计,就不能说了解过现代统计学。
1.1.3经典统计方法
我们先来回顾一下经典统计学的思想方法,以便与下一小节的贝叶斯统计思想方法进行比较。回顾一下概率统计课程中概率的定义,便容易明白经典统计学思想方法也就是“频率方法”,它把概率定义为频率的极限,也就是说如果随着随机试验重复次数的增多,随机事件发生的频率会稳定在一个常数附近,这个常数就是该随机事件发生的概率。同时,它认为总体的数字特征(如均值、方差)和别的参数仅仅是未知的常数,可以用样本统计量来估计。而且,它又认为样本是随机变量,从而样本统计量也是随机变量,因此具有概率分布,即它的抽样分布。如果统计量的分布可以求出,利用该分布,就可以进行区间估计和假设检验等统计推断。然而,我们知道寻求统计量的概率分布和进行区间估计以及假设检验等都不是容易的事,而且参数的区间估计既不容易理解也不容易解释。
1.1.4贝叶斯统计方法
贝叶斯统计学虽然也认可经典统计学的概率定义,但它同时把概率理解为人对随机事件发生可能性的一种信念(有时被称为“可信度”),当然,这种信念不是信口开河,而是基于学识和经验之上的审慎度量。其次,贝叶斯统计把任意一个未知量(参数)都看作一个随机变量,可用一个概率分布去描述它。我们说这种观点是合理的,因为即使是一个确定性的未知量,也可以把它看成随机变量的特殊情形,即服从0—1分布的随机变量。所以说,任一个未知量都可用一个适当的概率分布去描述它。这个概率分布利用历史数据或其他历史信息或研究人员的经验和学识而确定,称为该未知量(参数)的先验分布。而后利用新样本信息(即抽样信息)对先验分布进行更新,更新之后的这个新概率分布称为该未知量的后验分布。由此,未知参数的点估计、区间估计和假设检验等统计推断都是基于后验分布来进行的,而且参数的区间估计既容易理解也容易解释,假设检验则简单明了。
经典统计学把概率定义为频率的极限,初看起来似乎客观、严谨,但是在现实世界中要进行重复试验需要花费大量的人力、物力,而且有时根本无法重复,例如,我们无法重复昨天的天气和去年的经济活动。因此,用频率的极限来定义概率在实际应用中受到了极大的限制。相反,贝叶斯统计把概率理解为人对随机事件发生可能性的信念,则在实际应用中没有任何限制,因为它不需要重复,事件甚至可以一次都没有发生。而且,在贝叶斯统计中一旦后验分布建立起来了,所有的统计推断都是基于后验分布来进行的,因此,至少从理论上而言,贝叶斯统计推断比经典统计推断要简单明了得多。当然,现代统计学的发展趋势是,根据实际问题的条件和需要挑选经典统计方法或贝叶斯统计方法,有时甚至是综合利用这两种统计理论和方法进行统计推断。所以,不管是经典统计还是贝叶斯统计,能够解决问题的就是“好统计”!
对于经典统计学与贝叶斯统计学的比较,有待学完本书的内容后才能有更深刻的体会,因此希望读者在研读完本书后,再好好对它们做一个详细的比较分析。
1.2概率空间与随机事件贝叶斯公式
1.2.1概率空间与随机事件贝叶斯公式
我们从概率论知道概率空间是三位一体的一个研究对象(Ω,F,P),其中Ω是样本点全体,也称为样本空间;F是事件域(简单说就是所要研究的随机事件全体,包含必然事件Ω和不可能事件Φ);P是定义在事件域F上的概率(测度),满足以下三条公理:
(1) 非负性:对于任意事件A,其概率P(A)≥0;
(2) 规范性:必然事件Ω的概率等于1,即P(Ω)=1;
(3) 可列可加性:如{Ai}∞i=1是一列事件,满足AiAj=Φ(i≠j)(称为两两互不相容),则
P∪∞i=1Ai=P∑∞i=1Ai=∑∞i=1P(Ai)
这一公理体系称为柯尔莫哥洛夫概率论公理体系,是苏联著名数学家柯尔莫哥洛夫于1933年建立的,得到了概率统计学者们的广泛认可,从而为概率论建立了坚实的理论基础。
另外,对于任意两个事件A,B且P(A)>0,定义在A发生的条件下,B发生的条件概率为
P(B|A)=P(AB)P(A)
从而,P(AB)=P(A)P(B|A),这就是乘法公式。推而广之,设{Ak}nk=1是任意n个随机事件,则有更一般的乘法公式
P(A1A2…An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)
现设{Ai}∞i=1是事件域F中的一列事件,若∪∞i=1Ai=Ω,且AiAj=Φ(i≠j),则称{Ai}∞i=1为Ω的一个划分(也称为Ω的完全事件组,这里事件的个数也可以是有限多个,比如说n个,这相当于k>n时都有Ak=Φ)。显然,任一个事件A与其补就是Ω的一个划分。现在设{Ai}∞i=1为Ω的一个划分且P(Ai)>0,则对任一个事件B∈F有全概率公式
P(B)=∑∞i=1P(Ai)P(B|Ai)
事实上,由
B=B∪∞i=1Ai=∪∞i=1(AiB)且(AiB)∩(AjB)=(AiAj)B=Φ,i≠j
利用可列可加性及乘法公式就得
P(B)=P∪∞i=1AiB=∑∞i=1P(AiB)=∑∞i=1P(Ai)P(B|Ai)
现在将全概率公式以及乘法公式应用到条件概率P(Aj|B)的公式上就有
P(Aj|B)=P(AjB)P(B)=P(Aj)P(B|Aj)∑∞i=1P(Ai)P(B|Ai)j=1,2,…,n,…
这就是著名的随机事件形式的贝叶斯公式(定理或法则),也称为逆概率公式,这里{Aj}可以认为是事件B发生的所有可能的原因,而贝叶斯公式就是计算在已知事件B发生的条件下每个原因的可能性大小(概率),也就是说由结果去推测原因,因此叫逆概率公式。在贝叶斯公式中,P(Aj)称为Aj的先验概率,因为这是事先已知的,而P(Aj|B)自然称为Aj的后验概率。
1.2.2两例:她怀孕了吗?“非典”时期病人为何要测量体温?
贝叶斯公式与全概率公式都是概率论中的著名公式,在许多学科中都有重要应用,下面我们来看两个例子。
例1.1(她怀孕了吗?)根据历史资料知道:女性一次性交后怀孕的概率为15%。假如一个女性某次性交后怀疑自己怀孕了,但又不能确定。于是,她做了个准确率为90%的验孕测试,即90%的怀孕案例会给出阳性反应的检验结果,同时知道该测试当未怀孕时阳性反应占10%。她当然想知道在检验结果为阳性的条件下的怀孕概率。然而,她不懂贝叶斯统计,所以请你帮助她算出该概率。
解已知
P(怀孕)=0.15,P(检测阳性|怀孕)=0.90,P(检测阳性|未怀孕)=0.10
由已知得,P(未怀孕)=0.85。由贝叶斯公式知在检验结果为阳性的条件下的怀孕概率:
P(怀孕|检验阳性)=P(检验阳性|怀孕)P(怀孕)P(检验阳性|怀孕)P(怀孕)+P(检验阳性|未怀孕)P(未怀孕)
=0.90×0.150.90×0.15+0.10×0.85=0.1350.135+0.085=0.614
前言/序言
贝叶斯统计学是现代统计学中重要而独特的部分,不仅在统计学本身而且在众多其他学科中也有重要应用。近二十多年来,有关贝叶斯统计本身和贝叶斯统计应用的论文频频出现在各类统计以及非统计刊物上,贝叶斯统计解决了大量经典统计难以解决的复杂问题。可以这么说,没有学习过贝叶斯统计,就不能说了解过现代统计学。因此,贝叶斯统计理应成为大学统计类专业的一门必修课。
厦门大学经济学院统计系(原计划统计系)于2003年第一次正式开设了贝叶斯统计学课程,从那时起,我就一直担任该课程的主讲教师。光阴荏苒、白驹过隙,十多年的时间一晃就过去了。这十多年来,如何教好这门在统计学中独一无二的课程一直是萦绕在我脑海中挥之不去的一个问题,在此期间我既有教训也积累了不少教学经验。因此,在几年前我就萌发了用自己的教学经验和教学观点撰写一本有些许自己风格的贝叶斯统计教科书的念头。
有了撰写教材的想法后,自然而然地就会考虑:如何写出一本有特色的好教材呢?一本好教材的标准又是什么呢?我想就统计教学而言,一本好教材绝不仅仅是教给学生一些统计知识,更重要的是要培养和激发学生对统计学的兴趣和热爱,因为兴趣是最好的老师。那么怎样培养和激发学生对统计学的兴趣呢?多年的统计学科的教学经历使我认识到,要培养和激发学生对统计学的兴趣,一定要首先培养学生的“数据感”。众所周知,球类运动员要培养“球感”,语言学习者要培养“语感”,这些对他们而言都是极为重要的练习过程。对于统计专业以及任何学习统计的学生来说,在学习过程中培养自身的数据感同样极为重要。有了良好的数据感,才会对统计产生亲切感,从而才能激发起自身对统计的兴趣,这实际上也是专业素质的培养。如果大学本科四年不能培养起学生良好的数据感,就不能说是成功的本科统计教育。基于这种教学认识,本书以培养学生的数据感和激发学生的学习兴趣为写作方向。为了使本教材充满统计意味,我们从一开始就介绍贝叶斯统计学的最新有趣应用,同时,全书的案例丰富多彩,涉及经济、管理、天文、医药、生物、体育等领域,也有和日常生活息息相关的例子,使学生觉得贝叶斯统计不再是枯燥无味的,而是既有用又富有生活气息的。本书也专门制作了一个专用R软件包,把书中所有案例数据和主要程序都放入了此压缩包中,增强了师生之间的互动效果。此外,R软件的使用贯穿全书,目的就是通过数据和实际案例分析,加深学生对理论的理解并培养学生良好的数据感,强化学生的动手操作能力。
ii
本书共七章内容:第1章从一个贝叶斯统计学的真实应用开始,介绍贝叶斯统计的基本概念和公式,概述贝叶斯统计学的历史和发展趋势以及与经典统计学的比较;第2章引入共轭先验和充分统计量等概念,初步讨论后验分布的寻求以及共轭先验下的后验分布特性;第3章介绍先验分布的重要性和一系列先验分布的寻求方法,包括杰弗里斯先验等;第4章研究贝叶斯统计推断理论并介绍了贝叶斯统计在一系列不同领域的应用案例;第5章讨论贝叶斯统计决策理论,引入决策函数等一系列概念;第6章从实用的角度介绍了马尔可夫链蒙特卡罗(MCMC)方法的思想和简史以及马氏链样本的收敛检验问题;第7章则简要讨论统计决策理论,包括贝叶斯风险准则与后验风险准则的等价性等问题。另外,本书附带有R软件包、课件、部分习题参考答案,读者可通过扫描书中的二维码,联系出版社进行下载学习。
本书可作为高等院校统计、经济、金融、管理、医药、生物等专业高年级本科生和研究生的贝叶斯统计课程的教材或参考书。关于教学内容建议:对本科生而言,讲授前五章的全部内容,可加选讲第6、7章;对于研究生则应讲授全部七章的内容。
本书得以出版要感谢清华大学出版社;感谢吴雷编辑,他在组织出版的过程中做了大量的工作。此外,本书的初稿在厦门大学经济学院统计系和王亚南经济研究院双学位课程班讲授过,所以也要感谢各位学习这门课程的同学,是他们的认真学习,触动了我去思考如何教好这门课程。
坦率地说,撰写教材是一件吃力不讨好的工作。但我认为撰写教材是教师的职责之一,当一名教师在某门课程上认真教学了多年,有了教学上的经验与教训,那么就应该把它写出来。最后,本书若能激发读者对贝叶斯统计的兴趣,有助于读者学习贝叶斯统计,那将是对笔者最大的慰藉。当然,由于自身学识所限,本书一定存在许多不足和错误之处,恳望读者朋友指正。
黄长全
2017年1月于厦门大学
Email:cqhuang@xmu.edu.cn
贝叶斯统计及其R实现(21世纪经济管理精品教材·经济学系列) 下载 mobi epub pdf txt 电子书 格式