第11章:概率:缺少参照类的奇怪情形

前面各章让我们初步认识了哪些推断是演绎有效的,以及为什么。现在该回到归纳有效性这个问题了,它是这样一些推断的有效性:前提对结论提供了根据,但即使在某个情形下前提都为真,结论仍然可以为假。

正如我在第 1 章中提到的,夏洛克·福尔摩斯很擅长这类推断。让我们以他的一个推断作为例子开头。《红发会》之谜是这样开始的:福尔摩斯和华生博士受到了来自 Jabez Wilson 先生的拜访。当 Wilson 进来后,华生想看看福尔摩斯对他作了哪些推断:

“他干过一段时间体力活,吸鼻烟,是共济会成员,去过中国,最近写过不少东西,除了这些显而易见的事实外,我推不出什么别的。”

Jabez Wilson 从他的椅子上突然站起,手指仍然压着报纸,但眼睛已经转向我的同伴。

“我的天呐,福尔摩斯先生,你怎么知道所有这些的?”他问道。

福尔摩斯高兴地进行了解释。比如,关于写作:

“你右手袖子上足有五寸长的地方闪闪发光,而左袖靠近手腕经常贴在桌面上的地方打了个整洁的补丁。这还能说明什么别的吗?”

尽管福尔摩斯习惯把这样的推断称为演绎,它事实上是一个归纳推断。完全有可能 Wilson 的外套会呈现上述特征但他并没有从事过大量写作。比如,他可以从某个从事过大量写作的人那里偷来这件外套。但是,福尔摩斯的推断无疑是一个很好的推断。是什么使得这个推断,以及这类推断是好的呢?一个合理的回答是使用概率进行解释。因此,让我们先来谈一下概率,然后再回到这个问题。

概率就是指派给语句的一个数字,用来度量该语句为真有多大可能(在某种意义上)。让我们把 aa 的概率记作 pr(a)pr(a)。按惯例,我们用 0 和 1之间的数值来度量概率。若 pr(a)=0pr(a)=0,则 aa 确定为假;随着 pr(a)pr(a) 增加,aa 为真的可能性就越大,直到 pr(a)=1pr(a)=1aa 确定为真。

关于这些数字还有什么其他可说的呢?让我们用一个简单的例子来解释。假设我们考虑某个特定星期的那些天。令 ww 为每天要么为真要么为假的语句,比如“今天暖和”,令 rr 是另一个这样的语句,比如“今天下雨”。相关信息由下表给出:

周一

周二

周三

周四

周五

周六

周日

ww

\checkmark

\checkmark

\checkmark

\checkmark

rr

\checkmark

\checkmark

\checkmark

打勾表示语句在那一天为真,空白表示不为真。

现在,如果我们谈论的是这个特定的星期,随机选取的一天是暖和的概率是多少呢?有 4 天暖和,总共有 7 天。因此概率是 4/7。类似的,有 3 天下雨,因此下雨的概率是 3/7:

pr(w)=4/7pr(w)=4/7

pr(r)=3/7pr(r)=3/7

一般地,如果我们将 aa 为真的天数记为 #a\#a,将总天数记为 NN,则:

pr(a)=#a/Npr(a)= \#a/N

概率如何与否定、合取和析取相联系呢?首先看否定。¬w\neg w 的概率是多少?有 3 天不是暖和的,因此 pr(¬w)=3/7pr(\neg w)=3/7。注意到 pr(w)pr(w)pr(¬w)pr(\neg w) 加起来等于 1。这并非偶然。我们有:

#w+#¬w=N\#w+\#\neg w=N

两边除以 NN 得到:

#wN+#¬wN=1\dfrac{\#w}{N}+\dfrac{\#\neg w}{N}=1

即,pr(w)+pr(¬w)=1pr(w)+pr(\neg w)=1

合取和析取的情况如下:有 2 天既暖和又下雨,因此 pr(wr)=#(wr)/N=2/7pr(w\land r)=\#(w\land r)/N=2/7。有 5 天暖和或者下雨,因此 pr(wr)=#(wr)/N=5/7pr(w\lor r)=\#(w\lor r)/N=5/7。这两个数字之间有什么关系呢?为了找出 wrw\lor r 为真的天数,我们可以先把 ww 为真的天数和 rr 为真的天数加起来。这还不完全对,因为有些天被计算了两次:周三和周六。这两天既下雨又暖和。因此为了得到正确的数字,我们得减去二者都为真的天数:

#(wr)=#w+#r#(wr)\#(w\lor r)=\#w+\#r-\#(w\land r)

两边除以 NN 得到:

#(wr)N=#wN+#rN#(wr)N\dfrac{\#(w\lor r)}{N}=\dfrac{\#w}{N}+\dfrac{\#r}{N}-\dfrac{\#(w\land r)}{N}

即:

pr(wr)=pr(w)+pr(r)pr(wr)pr(w\lor r)=pr(w)+pr(r)-pr(w\land r)

这是合取式和析取式概率的一般关系。

上一章我们看到,真的程度也可以用 0 和 1 之间的数来度量。因而我们也许会自然地认为,真的程度与概率是一样的。它们并不一样。特别的,合取和析取以完全不同的方式运算。对真的程度,析取是一个真值函数。具体而言,wr|w\lor r|w|w|r|r| 的极大值。但我们刚才已看到,pr(wr)pr(w\lor r) 并不由 pr(w)pr(w)pr(r)pr(r) 单独决定。特别的,对我们的 wwrrpr(w)=4/7pr(w)=4/7pr(r)=3/7pr(r)=3/7,而 pr(wr)=5/7pr(w\lor r)=5/7。但如果 w=4/7|w|=4/7r=3/7|r|=3/7,则 wr=4/7|w\lor r|=4/7 而不是 5/75/7

在我们回到归纳推断之前,我们还需要一点关于概率的知识。给定我们的样本星期,随机选取的某天下雨的概率为 3/7。但假设你知道选取的那天是暖和的,那么那天下雨的概率是多少呢?有 4 天是暖和的,但其中只有 2 天下雨,因此概率为 2/4。这个数字称为条件概率conditional probability),记作 pr(rw)pr(r|w),表示给定 ww 的条件下 rr 的概率。如果我们稍加思考,就能给出计算条件概率的一般公式。我们是怎么得到 2/4 这个数的呢?首先,我们把自己限制在 ww 为真的那些天,然后用其中 rr 为真的天数(即 wwrr 都为真的天数)除以这个天数。换言之:

pr(rw)=#(wr)÷#wpr(r|w)=\#(w\land r)\div\#w

运用一点代数知识,这等于

#(wr)N÷#wN\dfrac{\#(w\land r)}{N}\div\dfrac{\#w}{N}

而这就是 pr(wr)÷pr(w)pr(w\land r)\div pr(w)

因此,下面是计算条件概率的一般公式:

CP: pr(wr)=pr(wr)/pr(w)\mathbf{CP}:\ pr(w|r)=pr(w\land r)/pr(w)

应用该公式要小心一点。除以 0 是没有意义的。比如,3/0 没有值。数学家称这种比率是未定义的undefined)。在计算 pr(wr)pr(w|r) 的公式中,我们用 pr(w)pr(w) 作除数,这只有在它不等于 0 时才有意义,即只有在 ww 至少有时为真时才有意义。否则,这个条件概率就是未定义的。

现在我们终于能回到归纳推断上来。一个推断是归纳有效的是指什么呢?就是前提使得结论比其否定更加可能。即,给定前提(或多个前提的合取)pp 的条件下,结论 cc 的条件概率大于 cc 的否定的条件概率:

pr(cp)>pr(¬cp)pr(c|p)>pr(\neg c|p)

因此,如果我们对我们举例说明的星期进行推理,以下推断:

这天下雨;因此这天暖和

就是归纳有效的。因为容易验证,pr(wr)=2/3pr(w|r)=2/3pr(¬wr)=1/3pr(\neg w|r)=1/3

这个分析可以用来表明,为什么我们开头那个福尔摩斯的推断是有效的。 福尔摩斯得出结论说 Jabez Wilson 从事过大量写作(cc)。他的前提大致意思是,Wilson 的夹克上有一些特定的穿着标记(pp)。现在,假如我们回到福尔摩斯时代的伦敦,聚集所有那些有上述磨损袖口的人,那么其中大多数会是职员,工作时间都花在写作上——或者我们可以假设如此。这样,给定 Jabez 的外套具有那些标记的条件下,Jabez 从事过大量写作的概率就比没有更高。福尔摩斯的推断的确是归纳有效的。

我将以我刚给出的这套工具产生的一个难题结束本章。我们已看到,概率可以计算为一个比率:我们选取特定的参照类,计算其中各组的数字,然后做些除法。但我们使用哪个参照类呢?在关于天气的示例中,我一开始限定了所考虑的参照类:某个特定星期的那些天。但现实生活问题不会以这种方式提出。回到 Jabez Wilson 的例子。要计算这种情况的相关概率,我建议采用的参照类是福尔摩斯时代的伦敦居民。但为什么是这个呢?为什么不是整个英国的居民,或者欧洲的居民,或者只是伦敦居民中的男性,或者只是那些能来拜访福尔摩斯的人?也许,在这里的某些情形,并没有太大差别。但在其他情形当然会有区别。比如,来拜访福尔摩斯的人都相对富有,不太可能穿二手外套。在更大的人群中情况会完全不同。那么,什么才应该是恰当的参照类呢?这是某种程度上让精算师(为保险公司计算风险系数的人)彻夜不眠的问题。

在上一个分析里,最精确的参照类似乎就只包含 Wilson 本人。毕竟,关于其他人的事实最终和他有多大关系呢?但这样一来,他要么从事过大量写作,要么没有。在第一种情况下,给定他有闪亮袖口的条件下他从事过大量写作的概率为 1,因而推断有效;在第二种情况下,概率为 0,因而推断无效。换言之,该推断的有效性完全依赖于结论的真假。因此,你无法为了确定结论的真假而使用这个推断。如果我们走到这个地步,那么给出的有效性概念就毫无用处了。

本章要点

  • 一个陈述的概率是它为真的情形的数量除以参照类中情形的数量。

  • pr(¬a)=1pr(a)pr(\neg a)=1-pr(a)

  • pr(ab)=pr(a)+pr(b)pr(ab)pr(a\lor b)=pr(a)+pr(b)-pr(a\land b)

  • pr(ab)=pr(ab)/pr(b)pr(a|b)=pr(a\land b)/pr(b)

  • 一个推断是归纳有效的,当且仅当给定前提(的合取)的条件下,结论的条件概率大于其否定在给定前提(的合取)的条件下的条件概率。

最后更新于