贝叶斯法则术语解释法则原理统计学中一个基本的工具

贝叶斯法则（Bayes'theorem/Bayes theorem/Bayesian law）贝叶斯的统计学中有一个基本的工具叫“贝叶斯法则”，尽管它是一个数学公式，但其原理毋需数字也可明了。如果看到一个人总是做一些好事，则那个人多半会是一个好人。这就是说，当不能准确知悉一个事物的本质时，可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是：支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。

中文名

贝叶斯法则

外文名

Bayes theorem

别称

贝叶斯定理、贝叶斯规则

表达式

数学公式

提出者

贝叶斯

适用领域范围

概率统计

术语解释

贝叶斯法则又被称为贝叶斯定理、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主

观判断（即先验概率）进行修正的标准方法。

所谓贝叶斯法则，是指当分析样本大到接近总体数时，样本中事件发生的概率将接近于总体中事件发生的概率。

但行为经济学家发现，人们在决策过程中往往并不遵循贝叶斯规律，而是给予发生的事件和最新的经验以更多的权值，在决策和做出判断时过分看重的事件。面对复杂而笼统的问题，人们往往走捷径，依据可能性而非根据概率来决策。这种对经典模型的系统性偏离称为“偏差”。由于心理偏差的存在，投资者在决策判断时并非绝对理性，会行为偏差，进而影响资本市场上价格的变动。但长期以来，由于缺乏有力的替代工具，经济学家不得不在分析中坚持贝叶斯法则。

法则原理

通常，事件A在事件B(发生)的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。

作为一个规范的原理，贝叶斯法则对于所有概率的解释是有效的；然而，频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法：频率主义者根据随机事件发生的频率，或者总体样本里面的个

数来赋值概率；贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是，贝叶斯主义者有更多的机会使用贝叶斯法则。

贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。

Pr(A|B)=frac{Pr(B|A),Pr(A)}{Pr(B)}proptoL(A|B),Pr(A)!

其中L(A|B)是在B发生的情况下A发生的可能性。

在贝叶斯法则中，每个名词都有约定俗成的名称：

Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。

Pr(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。

Pr(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。

Pr(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

按这些术语，Bayes法则可表述为：

后验概率=(相似度*先验概率)/标准化常量

也就是说，后验概率与先验概率和相似度的乘积成正比。

另外，比例Pr(B|A)/Pr(B)也有时被称作标准相似度（standardised likelihood），Bayes法则可表述为：后验概率=标准相似度*先验概率

举例分析

案例一

全垄断市场，只有一家企业A提供产品和服务。企业B考虑是否进入。当然，A企业不会坐视B进入而无

动于衷。B企业也清楚地知道，是否能够进入，完全取决于A企业为阻止其进入而所花费的成本大小。

挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型，但B知道，如果A属于高阻挠成本类型，B进入市场时A进行阻挠的概率是20%（此时A为了保持垄断带来的高利润，不计成本地拼命阻挠）；如果A属于低阻挠成本类型，B进入市场时A进行阻挠的概率是100%。

博弈开始时，B认为A属于高阻挠成本企业的概率为70%，因此，B估计自己在进入市场时，受到A阻挠的概率为：

0.7×0.2+0.3×1=0.44

0.44是在B给定A所属类型的先验概率下，A可能采取阻挠行为的概率。

当B进入市场时，A确实进行阻挠。使用贝叶斯法则，根据阻挠这一可以观察到的行为，B认为A属于高阻挠成本企业的概率变成A属于高成本企业的概率=0.7（A属于高成本企业的先验概率）×0.2（高成本企业对新进入市场的企业进行阻挠的概率）÷0.44=0.32

根据这一新的概率，B估计自己在进入市场时，受到A阻挠的概率为：

0.32×0.2+0.68×1=0.744

如果B再一次进入市场时，A又进行了阻挠。使用贝叶斯法则，根据再次阻挠这一可观察到的行为，B认为A属于高阻挠成本企业的概率变成

A属于高成本企业的概率=0.32（A属于高成本企业的先验概率）×0.2（高成本企业对新进入市场的企业进行阻挠的概率）÷0.744=0.086

这样，根据A一次又一次的阻挠行为，B对A所属类型的判断逐步发生变化，越来越倾向于将A判断为低阻挠成本企业了。

以上例子表明，在不完全信息动态博弈中，参与人所采取的行为具有传递信息的作用。尽管A企业有可能是高成本企业，但A企业连续进行的市场进入阻挠，给B企业以A企业是低阻挠成本企业的印象，从而使得B企业停止了进入地市场的行动。

应该指出的是，传递信息的行为是需要成本的。假如这种行为没有成本，谁都可以效仿，那么，这种行为就达不到传递信息的目的。只有在行为需要相当大的成本，因而别人不敢轻易效仿时，这种行为才能起到传递信息的作用。

传递信息所支付的成本是由信息的不完全性造成的。但不能因此就说不完全信息就一定是坏事。研究表明，在重复次数有限的囚徒困境博弈中，不完全信息可以导致博弈双方的合作。理由是：当信息不完全时，参与人为了获得合作带来的长期利益，不愿过早暴露自己的本性。这就是说，在一种长期的关系中，一个人干好事还是干坏事，常常不取决于他的本性是好是坏，而在很大程度上取决于其他人在多大程度上认为他是好人。如果其他人不知道自己的真实面目，一个坏人也会为了掩盖自己而在相当长的时期内做好事。

案例二

考虑一个医疗诊断问题，有两种可能的假设：（1）病人有癌症。（2）病人无癌症。样本数据来自某化验测试，它也有两种可能的结果：阳性和阴性。假设我们已经有先验知识：在所有人口中只有0.008的人患病。此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。

上面的数据可以用以下概率式子表示：

P(cancer)=0.008,P(无cancer)=0.992

P(阳性|cancer)=0.98,P(阴性|cancer)=0.02

P(阳性|无cancer)=0.03，P(阴性|无cancer)=0.97

假设有一个新病人，化验测试返回阳性，是否将病人断定为有癌症呢？我们可以来计算极大后验假设：

P(阳性|cancer)p(cancer)=0.98*0.008=0.0078

P(阳性|无cancer)*p(无cancer)=0.03*0.992=0.0298

因此，应该判断为无癌症。

主要区别

海萨尼转换与贝叶斯法则

1967年，海萨尼（JohnHarsanyi)指出所有老定义下具有不完全信息的博弈都可以在不改变其精髓的情况下被重新模型化为一个完全但不完美的信息博弈，这一切只需要添加一个由自然在不同规则集合中进行选择的初始行动即可。在老的定义中，博弈论学家常指出不完全信息博弈是不可分析的，而海萨尼的创见使得这一切有所改变。老的定义是这样描述的：在完全信息博弈中，全体参与人都知道博弈的规则，否则这一博弈就是一个不完全信息博弈。尽管海萨尼未指出老的定义是有问题的，但事实上人们的观点已经发生了变化，认为在原有定义中，被转换后的博弈才是不完全信息博弈。在博弈中，其中有参与人也许对博弈的支付并不十分清楚，但对支付还是有一定的了解的。一般情况下，采用主观概分布来表示信息。也就是基于概率对进行分组构建各种博弈支付，可以形成一个特定的支付集合。比如甲与乙选择策略时，可以这样考虑，甲选择某一种策略时，乙选择策略有几种，乙的这些策略按发生的概率进行分组。通常构建一个博弈树就可以较好地表达这一切。海萨尼教义的观点关键在于假定所有的参与人都是有共同的认识，对于策略采取发生的概率是一个共同知识。隐含的意思也就是：参与人对于自己的猜测至少是少许公开了的。

在对一个博弈的信息结构进行划分的时候，并不试图决定参与人能从其它参与人的行动中推断出些什么东西。先验概率是作为博弈规则的一部分存在，因此，一个参与人必须是持有关于其它参与人类型的先验信念，同时，在观察到他们的行动后，就要假定他们遵循着均衡的行为，然后更新自己的信念。

先后验概率

用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识，可以简单地将每一候选假设赋予相同的先验概率。类似地，P(D)表示训练数据D的先验概率，P(D|h)表示假设h成立时D的概率。机器学习中，我们关心的是P(h|D)，即给定D时h的成立的概率，称为h的后验概率。

极大后验假设

学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h，h被称为极大后验假设（MAP）确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率，计算式如下:

h_map=argmaxP(h|D)=argmax(P(D|h)*P(h))/P(D)=argmaxP(D|h)*p(h)(h属于集合H)

最后一步，去掉了P(D)，因为它是不依赖于h的常量。

极大似然假设

在某些情况下，可假定H中每个假设有相同的先验概率，这样式子可以进一步简化，只需考虑P(D|h)来寻找极大可能假设。

h_ml=argmaxp(D|h)h属于集合H

P(D|h)常被称为给定h时数据D的似然度，而使P(D|h)最大的假设被称为极大似然假设。

特点介绍

(1)贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类；

(2)一般情况下在贝叶斯分类中所有的属性都潜在地起作用，即并不是一个或几个属性决定分类，而是所有的属性都参与分类；

(3)贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。

贝叶斯定理给出了最小化误差的最优解决方法，可用于分类和预测。理论上，它看起来很完美，但在实际中，它并不能直接利用，它需要知道证据的确切分布概率，而实际上我们并不能确切的给出证据的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。

参考资料

1.什么是贝叶斯法则？·数据分析网

2.贝叶斯公式的通俗解释·高三网

文章详情

贝叶斯法则术语解释法则原理统计学中一个基本的工具