luyuanhong 发表于 2024-4-4 13:34

统计学入门(13):贝叶斯定理

统计学入门(13):贝叶斯定理

原创 黄宝荣 语言科学漫谈 2024-03-22 16:33 上海

01引言

贝叶斯定理是一种利用不完整的数据来计算事情发生可能性的方法。当我们有了新的信息后,可以一直使用贝叶斯定理来更新某件事情发生的概率。比如,我们之前觉得某件事情发生的可能性很小,但当我们知道了新的情况后,可能会改变看法,觉得它发生的可能性变大了。这个定理在统计学、机器学习和数据科学里的用途非常大。下面让我们来一探究竟。

02历史

在 18 世纪,英国牧师和数学家托马斯·贝叶斯(Thomas Bayes)提出了贝叶斯定理。贝叶斯定理并没有在他生前发布。在他去世后,他的想法和方法由他的朋友理查德·普莱斯(Richard Price)整理并提交给了皇家学会。1763 年,这些工作在题为《关于解决道德或赌博问题中的一个问题的随机方式》(An essay towards solving a problem in the Doctrine of Chances)的论文中发布。在这篇论文中描述了我们现在所知的贝叶斯定理。贝叶斯的思想基于逆概率问题,即在已知某些事件结果的情况下,如何推断原始概率的问题。这个思考角度在当时比较新颖。



贝叶斯定理的核心思想在贝叶斯生前就已经有所讨论,但他提出了一个非常具体的问题形式和解决方案。他考虑了一个特殊的案例:在不知道原始概率的情况下,如何根据新的证据来更新这个概率的估计。



想象有一个桌子,桌子上有一个被屏幕遮挡的透明容器,你看不到容器内部。这个容器内有一些红色和蓝色的球,具体比例未知。你的任务是通过抽球来推断红球和蓝球在容器中的比例,贝叶斯定理的推理过程如下:

第一步 - 先验概率:在抽取任何球之前,你对红球和蓝球的比例只能做出一个大致的猜测。假设你认为容器中红球和蓝球的比例可能是任何可能的分布,例如五五开,这是你的“先验”信念。

第二步 - 抽取球并观察:现在,你从容器中随机抽取一球,观察球的颜色。假设你抽到了一个红球。

第三步 - 更新信念(后验概率):根据你抽到的红球,你需要更新关于容器中红球和蓝球比例的信念。贝叶斯定理正是用来进行这种更新的。因为你抽到了红球,这个证据使得容器中红球比例较高的假设变得更加可信。

重复抽取过程:你可以继续抽取更多的球,并每次根据观察到的颜色更新你对红蓝球比例的估计。随着你抽取的球数增加,你的估计将越来越接近实际的比例。

贝叶斯定理的关键在于如何使用新的证据(抽到的球的颜色)来不断更新你对未知世界(容器中球的真实比例)的理解。每次抽取并观察结果之后,你使用贝叶斯定理计算后验概率 (Posterior),这个后验概率基于你之前的信念(先验概率, Prior)和新的观察数据(似然性, Likelihood),其具体公式如下:



贝叶斯定理让我们可以在面对不确定性和有限的信息时,进行合理的推断和决策。通过不断地收集数据并更新我们的信念,我们能够逐渐接近真相。尽管贝叶斯的方法在他去世后的很长一段时间内并未受到重视,但 19 世纪和 20 世纪初,随着统计学和概率论的发展,贝叶斯定理慢被广泛用于科学研究、经济学、医学、工程学等领域。20 世纪中叶,随着计算技术的进步,贝叶斯方法开始得到更加广泛的应用。它的灵活性和在处理不确定性信息方面的能力,使其成为许多领域不可或缺的工具。

03什么是逆问题?

逆概率问题(Inverse probability problem),通常称为“逆问题”,在数学和统计学中指的是根据一系列观测结果反推导出可能导致这些结果的原因或系统参数的问题。与之相对的是“正问题”,正问题是指已知原因或系统参数,预测其结果的过程。逆问题在许多领域都有应用,包括物理学、地球科学、工程学、医学成像和金融等。

逆问题的核心在于从效果推测原因。这通常涉及到从有限的、不完全的、甚至是带有噪声的数据中恢复出系统的某些特性或状态。逆问题通常是病态的,意味着小的观测数据变化可能导致解的巨大变化,这使得求解逆问题变得复杂和具有挑战性。

下面我们来看几个逆问题的例子:

地震定位:通过从多个地震站接收到的地震波到达时间反推地震的震源位置。

医学成像:从体外测得的信号反推体内组织的结构或功能状态。

天气预报:通过观测数据(如温度、湿度、风速等)来估计天气模型的参数,进而预测未来的天气状况。

机器学习:在监督学习任务中,通过从输入(特征)和输出(标签)的数据集中学习模型的参数,以预测新输入数据的输出。

贝叶斯定理提供了一种通过观测数据更新关于未知参数的信念的系统方法,在解决逆概率问题中扮演了核心角色。贝叶斯定理通过未知参数的先验分布结合观测数据的似然性来形成参数的后验分布。这个过程本质上是一个逆概率过程,因为它从结果(数据)推导出原因(参数)的分布。

04如何得到先验概率?

获取先验假设(先验概率)是贝叶斯分析中的一个关键步骤,它基于你在实验或观察之前对某个问题的理解和信念。先验假设可以通过多种方式获得,具体方法可由问题的性质、可用信息的数量和质量,以及分析者的专业判断决定。下面是几种常见的方法:

1. 历史数据

如果有关于类似事件或现象的历史数据,这些数据可以用来构建先验概率。例如,在医学测试中,可以使用之前类似患者群体的疾病发生率作为先验概率。

2. 专家知识

当历史数据不足或不适用时,可以用领域专家的知识和经验来估计先验概率。专家可以基于他们对领域的深入理解,提供关于某个事件发生概率的估计。

3. 文献调研

通过研究相关的科学文献和研究报告,可以找到之前研究中使用或报告的概率估计。这些估计可以直接用作先验概率,或者合并多个来源的数据来构建更综合的先验估计。

4. 均匀或无信息先验

在完全没有关于事件概率的先验知识时,可以使用均匀先验(也称为无信息先验),这意味着所有可能的结果都被认为是等可能的。例如,如果你在抛硬币前对硬币有一个公平的假设,那么正面和反面的先验概率都是 0.5 。

5. 实验或调查

在某些情况下,可以通过进行预实验、调查或其他形式的数据收集活动获得先验概率。

05贝叶斯应用示例

● 垃圾邮件分类器



假设我们要构建一个简单的垃圾邮件(spam)分类器,用于区分垃圾邮件和非垃圾邮件(ham)。我们使用了一个非常简单的词汇表,只包括两个词:“免费”和“会议”,并基于以下统计数据构建模型:

○ 在所有邮件中,80% 是非垃圾邮件(ham),20% 是垃圾邮件(spam)。

○ “免费”这个词在垃圾邮件中出现的概率是 90% ,在非垃圾邮件中出现的概率是 10% 。

○ “会议”这个词在非垃圾邮件中出现的概率是 80% ,在垃圾邮件中出现的概率是 20% 。

现在,我们收到了一封含有“免费”一词的邮件。我们要计算这封邮件是垃圾邮件的概率。使用贝叶斯法则,我们首先需要定义先验概率和条件概率:

先验概率:P(spam) = 20% ,P(ham) = 80% 。

条件概率:P(“免费”|spam) = 90% ,P(“免费”|ham) = 10% 。

我们需要计算的是 P(spam|“免费”),即给定邮件中有“免费”这个词时,这封邮件是垃圾邮件的概率。

根据贝叶斯法则,我们有:



式中,P(“免费”) 可以通过所有含“免费”这个词的邮件的概率来计算,即:



因此:



根据我们的模型,含有“免费”一词的邮件是垃圾邮件的概率大约是 69.23% 。

● 情感分析



现在我们需要判断一句话是正面情绪还是负面情绪。假设我们的词汇表只有两个词:“好”和“坏”,并且我们有以下数据:

○ 在所有句子中,60% 表达的是正面情绪,40% 表达的是负面情绪。

○ “好”这个词在正面情绪的句子中出现的概率是 70% ,在负面情绪的句子中出现的概率是 30% 。

○ “坏”这个词在负面情绪的句子中出现的概率是 80% ,在正面情绪的句子中出现的概率是 20% 。

给定一句评论中只含有“好”的情况下,需要计算它是正面情绪的概率。根据贝叶斯定理,我们需要计算:



其中:

P(“好”∣正面)=70%

P(正面)=60%

P(“好”) 是任意一句话中出现“好”这个词的总概率,计算方式为:



代入公式后,可得:



也就是说,这句含有“好”的评论表达正面情绪的概率大约是 77.78% 。

06结语

贝叶斯定理提供了一种强大的工具,能够在新的证据不断出现时更新我们的信念。通过结合先验知识和新的观察数据,贝叶斯方法使我们能够以一种系统和量化的方式处理不确定性,从而做出更加合理的预测和决策。后续我们将介绍更多的统计学知识,敬请关注!
页: [1]
查看完整版本: 统计学入门(13):贝叶斯定理