[blockquote]
古罗马哲学家Lucretius认为,宇宙是无限的。让我们来看一看他的经典论证。假设宇宙是有限的。我们往宇宙的边界投掷一根标枪。则我们将看到以下两种情况之一:这根标枪穿过边界飞向远方,这说明宇宙并无边界,它是无限的;或者这根标枪一头装上宇宙边界停了下来,这说明边界外“有东西”挡住了标枪,同样说明宇宙是无界的。[/blockquote]
我想说的是,在我们的知识体系里面还不存在“有限无界”这个概念的时候,上面的推理真的很滑稽吗?我们现在的知识体系和古希腊相比固然得到了极大的进步,但是我们真的变得更“聪明”了吗?要知道推理的引擎(演绎和归纳)几十万年来却并没有变化,我们只是站在巨人(数千年知识的积累)的肩膀上,但这个巨人的高度并不属于我们自己,我们有什么理由五十步笑百步呢?
我们太可能因为受到知识的局限性而对事物的看法产生无法消除的偏见,有时候打破这种偏见的唯一途径就是开阔视野,多积累知识,以及和具有不同知识背景的人讨论,否则就算抱着“我可能是错的”这种信念,你也不知道怎么去证伪自己的一个猜测。
关于我们大脑中的先验假设能够对我们的日常推理和记忆造成多大的影响,有这样一个经典的实验:
1981年,两位心理学家Brewer和Treyens作了这么一个实验:[blockquote]
召集一些人,告知他们将会参加一项学术研究计划,实验者先带领他们来到一间办公室,让他们稍加等候,一段时间之后,叫他们出来,并询问他们记得办公室里面有哪些东西。一些人声称看到了书,然而实际上办公室里面根本没有书。[/blockquote]
这里的原理是显而易见的,我们期望在一个学术机构的办公室里面看到典型的事物——书。当我们的直接记忆并不深刻或者我们当时等候的时候并没有刻意留心屋子内的摆设和物品时,我们会依靠之前生活中积累出来的先验假设进行推理,填充记忆的模糊或空白。关于虚假记忆的研究也表明,我们的记忆并不像电脑的存储设施那样,忠实记录,然后忠实读取,而是在记录和读取的时候都是相当程度上“构建性”的,而构建所用的“素材”则是我们之前在生活中积累出来的经验。这也是为什么同一个故事经不同的人口口相传之后会出现形形色色的版本的原因。 – 以下对了解机器学习的geeks插播一段八卦 –
对基于统计(特别地,基于贝叶斯)的垃圾邮件过滤的基本机制有所了解的同学应当知道,在判别公式里面有两项分别是P(S)和P(H),分别代表一封邮件是垃圾邮件和非垃圾邮件的(先验)概率,一项统计表明现实世界中这个比例是8/2,即80%的邮件是垃圾邮件。这个就是过滤器眼中的世界,“八成的人都是坏人”,这个就是过滤器的“偏见”,或者“先验假设”,来一封邮件不管三七二十一首先作一个最坏的打算。正如机器学习方法的偏见来源于训练数据集,我们头脑中的偏见也来源于我们大脑中神经网络的训练数据集——现实生活。
由于8/2的比例并非时间无关的稳定比例,或者其他什么原因(如保守起见),目前大多数贝叶斯垃圾过滤系统实际上将这个比例设为5/5,表示“无偏见”,不设先验。这就基本上将贝叶斯这个词扔掉了。但我个人觉得这并不能称为“无偏见”,如果现实就是“有偏”的,保持公平也是一种偏见,这让我忍不住想起P. Norvig讲的关于人工智能鼻祖Minsky的一则轶事:
In the days when Sussman was a novice, Minsky once came to him as he sat hacking at the PDP-6.
"What are you doing?", asked Minsky.
"I am training a randomly wired neural net to play Tic-Tac-Toe," Sussman replied.
"Why is the net wired randomly?", asked Minsky.
"I do not want it to have any preconceptions of how to play", Sussman said.
Minsky shut his eyes.
"Why do you close your eyes?", Sussman asked his teacher.
"So that the room will be empty."
At that moment, Sussman was enlightened.
根据P. Norvig的说法,Minsky是想告诉Sussman一个随机赋值的神经网络也是有模型(或偏见的),只是这很可能是一个极其复杂的模型,我们无法理解。你蒙上眼睛不代表这个屋子不存在,你不知道随机神经网络的模型是什么不代表它不存在。
但我忍不住YY了一把另一种解释:如果现实世界背后的模型本来就是“有偏”的,假装不引入“偏见”本身就是“偏见”。只不过我们所观察到的现实世界纷繁的表象往往只是一个局部有偏样本,导致我们看上去随机抽取的数据其实还是有偏的,如果我们蒙上眼睛骗自己说这就是真正随机的抽样,那么训练出来的模型肯定也是有偏的,为了补偿这种偏差我们有时候宁可扔掉从训练数据中得到的某些概率,这种方法往往导致长期来讲更靠谱(严格来说这里的术语是robust )的模型,尤其是在金融市场上,小聪明的人从短期趋势数据上自以为得到了靠谱的模型,把太多的赌注放在了一个建立在因在时间维度上没有随机采样而很可能有偏的数据集上得到的模型上,而真正智慧的玩家则会建议普通人最佳投资方法是无偏见地平均分配资金,避免因模型错误而导致的灾难,这一平均分配的极端形式就是——投资指数。 – 八卦结束,回归正文 –
最后再来一个例子,生动地说明了我们在平常生活中积累的偏见有多深:[blockquote]
问题:现在有两个孩子,张森和李梅,其中一个孩子有四个卡车玩具,你认为是谁?
问题:莉莉和丁丁谁将来更可能成为护士?[/blockquote]
(以上问题演绎自《Making Up the Mind》p168页的英文版本)
尽管我们只拥有他们的名字,名字本身只是任意的汉字,自身并不携带信息(从一个角度来说),但就连三岁的小孩也能对这两个问题给出“靠谱”的答案。
当然我们也可以说偏见代表着长期积累的生活经验,能够使我们事先就对未知对象的属性进行靠谱的预测,但另一方面,偏见也很可能成为自我实现的预言和自我妨碍的篱笆:女孩和男孩的数学智商真的有显著差异吗?但受文化影响,女孩认为自己更不擅长数学和理科,这个自我信念从两个角度产生作用,第一,它会让女生倾向于投入更少地时间在理科上,从而导致更低的理科成绩,结果进一步强化了她的“我的数学不好”的信念。这几乎是一个死循环。第二,人们为了维护对自我的信念,会拒绝接受与之相反的信息,如果那一次她数学考得不错,她会寻找外部理由,譬如“只是凑巧罢了”,虽然这种把自己看低的心理过程有点不可思议,但这的确是心理学家们实验证实的结果。
在社会文化方面,人们常用“仁者见仁、智者见智”这个俗语来指代三种现象:
1) 偏见:不同的人戴着不同的有色眼镜,对同一现象产生不同的理解或解释。是平凡的解释还是阴谋论的解释?存乎一心。
2) 立场:例如对于“生活的意义”没有统一的标准公理,因此每种生活都是合理的,各人可以持有不同的价值观,优化不同的目标函数。
3) 选择性关注:对于同一事物,不同的人关注的点不一样,象有四腿,各摸一条。
与“仁者见仁、智者见智”这个俗语的褒义色彩相反,这里除了第二点是中性的之外,另外两点都不能算是好事,譬如程序员在做项目的时候经常只选择性地关注“使用的技术是否有意思,是否有挑战性,是否好玩,我能否从中得到乐趣,是否能学到新东西”,而并不是关注最应该关注的“如何以最小成本达成项目成功”。至于第一点——偏见——就不用多说了,前文已经说得够多了。如果还觉得不够的,不妨读一读社会心理学经典之作《社会性动物》的冲突和偏见部分。
偏见在我们解决问题、认识世界的过程中都起到了很大的影响,并且很多时候是不好的影响。因此,让我们经常和具有不同信念和知识背景的人讨论,弥补个人经验知识的局限性导致的偏差,并时常使用以下这句话来提醒自己keep an open mind吧: “这只是一种解释(可能),未必是唯一的解释(可能)。(想不出其他解释不代表就不存在其他解释)。”作者: 响良牙 时间: 2012-5-8 09:03