贝叶斯算法概述
简介 概率论中贝叶斯算法是最基本的一个条件概率算法。学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B)可以计算出P(B|A)。 假设B是由相互独立的事件组成的概率空间{B1,b2,…bn}。则P(A)可以用全概率公式展开:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)。贝叶斯公式表示成:P(Bi|A)=P(A|Bi)P(Bi)/(P(A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn));常常把P(Bi|A)称作后验概率,而P(A|Bn)P(Bn)为先验概率。而P(Bi)又叫做基础概率。 贝叶斯公式: 贝叶斯公式看起来很简单,但是在自然科学领域应用范围及其广泛。同时理论本身蕴含了深刻的思想。 贝叶斯概率的历史 贝叶斯理论和贝叶斯概率以托马斯·贝叶斯(1702-1761)命名,他证明了现在称为贝叶斯定理的一个特例。术语贝叶斯却是在1950年左右开始使用,很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明了贝叶斯定理的一个更普遍的版本,并将之用于解决天体力学、医学统计中的问题,在有些情况下,甚至用于法理学。但是拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。 弗兰克·普伦普顿·拉姆齐在《数学基础》(1931年)中首次建议将主观置信度作为概率的一种解释。Ramsey视这种解释为概率的频率解释的一个补充,而频率解释在当时更为广泛接受。统计学家Bruno de Finetti于1937年采纳了Ramsey的观点,将之作为概率的频率解释的一种可能的代替。L. J. Savage在《统计学基础》(1954年)中拓展了这个思想。 有人试图将“置信度”的直观概念进行形式化的定义和应用。最普通的应用是基于打赌:置信度反映在行为主体愿意在命题上下注的意愿上。 当信任有程度的时候,概率计算的定理测量信任的理性程度,就像一阶逻辑的定理测量信任的理性程度一样。很多人将置信度视为经典的真值(真或假)的一种扩展。 Harold Jeffreys, Richard T. Cox, Edwin Jaynes和I. J. Good研探了贝叶斯理论。其他著名贝叶斯理论的支持者包括John Maynard Keynes和B.O. Koopman。 贝叶斯法则的原理 通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。 作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。 贝叶斯法则是关于随机事件A和B的条件概率和边缘概率的。 其中L(A|B)是在B发生的情况下A发生的可能性。 在贝叶斯法则中,每个名词都有约定俗成的名称: Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。 Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。 Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。 Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。 按这些术语,Bayes法则可表述为: 后验概率 = (似然度 * 先验概率)/标准化常量 也就是说,后验概率与先验概率和似然度的乘积成正比。 另外,比例Pr(B|A)/Pr(B)也有时被称作标准似然度(standardised likelihood),Bayes法则可表述为: 后验概率 = 标准似然度 * 先验概率 要理解贝叶斯推断,必须先理解贝叶斯定理。后者实际上就是计算"条件概率"的公式。 所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。 根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。 因此, 同理可得, 所以, 即, 这就是条件概率的计算公式。 全概率公式 由于后面要用到,所以除了条件概率以外,这里还要推导全概率公式。 假定样本空间S,是两个事件A与A’的和。 上图中,红色部分是事件A,绿色部分是事件A’,它们共同构成了样本空间S。 在这种情况下,事件B可以划分成两个部分。 ...