数据挖掘是人为而非智能

A-A+
产业来源：作者：佚名 0

在人工智能异常火热的今天，很多人认为我们生活在一个不可思议的历史时期，人工智能和大数据可能比工业革命更能改变人的一生。然而这种说法未免言过其实，我们的生活确实可能有所改变，但并非一定是朝好的方面发展。我们过于武断地认为计算机搜索和处理堆积如山的数据时不会出差错，但计算机只是擅长收集、储存和搜索数据，它们没有常识或智慧，不知道数字和词语的意思，无法评估数据库中内容的相关性和有效性，它们没有区分真数据、假数据和坏数据所需的人类判断力，没有分辨有理有据和虚假伪造的统计学模型所需的人类智能。

计算机挖掘大数据风行一时，但数据挖掘是人为而非智能，也是非常艰巨、危险的人工智能形式。数据挖掘先是通过大量的数据走势、相关关系来发现让我们内心愉悦却无实践价值的模型，然后创造理论来解释这些模型。比如下文的“得州神枪手谬误”就可以说明，如果你挖掘和拷问数据的时间够长、数量够大，你总能得到自己想要的结果，然而这是相关关系却并不是因果关系，只是自我选择偏好，并没有理论基础也没有实用价值。

在人工智能时代，我们对计算机的热爱不应该掩盖我们对其局限性的思考，真正的危险不是计算机比我们更聪明，而是我们认为计算机具有人类的智慧和常识，数据挖掘就是“知识发现”，从而信任计算机为我们做出重要决定。更多的计算能力和更多的数据并不意味着更多的智能，我们需要对人类的智慧有更多的信心。

得州神枪手谬误

“数据为先，理论靠后”特有的两个问题可以精确地概括为“得州神枪手谬误”。

谬误1 ：自诩为神枪手的人在整面墙上放满靶子，然后朝墙开枪。他肯定能射中一个，然后很骄傲地显摆自己的枪法，绝口不提其余没射中的靶子。因为他肯定可以击中一个，所以即便做到了也根本说明不了什么。这好比在研究中验证数百个（或数千、数百万个）理论，然后只报告统计学意义上最有说服力的结果，对所有失败的验证都守口如瓶。例如，在超感官知觉研究中，有人可能会给数千个受试者进行数十次验证，却只报告那些支持超感官知觉的测试（或测试的一部分）。这什么都证明不了，因为只要进行足够多的测试，研究人员就一定可以找到支持的证据。

谬误2 ：倒霉的牛仔把子弹打到了空白墙上。随后，他绕着弹孔画了个靶心。这也证明不了什么，因为总能找到一个弹孔画圈。这就好比在研究中搜遍数据来寻找模型，找到后再编出一个理论。超感官知觉研究中，有人可能报告称，尽管受试者的反应与当时记录的线索不符，但的确与早前记录（“向后移位”）、稍后记录（“向前移位”）或无记录（“负超感官知觉”）的线索吻合。想要寻找模型的人肯定能找到一个。因此，有所发现只能证明有所寻求。

得州神枪手谬误还有很多其他表达方法，包括数据挖掘、数据捞取、摸底调查、采摘樱桃、数据探测和P 值篡改。P值篡改这一戏称源于实验结果偶然发生的可能性（P值）若低，则被认为具有统计学意义。“得州神枪手”的研究中低P 值的可能性比较高，所以称之为“P值黑客”。发表研究成果的期刊加剧了这种状况，因为它们更喜欢（或需要）有统计学意义的结果，这就促使研究人员落入得州神枪手谬误，以获取具有统计学意义的结果。

谬误2又称“费曼陷阱”，名称取自诺贝尔奖得主理查德·费曼。费曼让自己在加州理工大学的学生计算，如果他走出教室，在停车场看到的第一辆车的车牌号为8NSR26的概率为多少。学生们假定每个数字和字母出现的概率相同且独立确定，得到的概率结果为小于1 700 万分之一。等到学生完成计算后，费曼揭晓正确答案为1，因为他在来教室的路上已经见到了这个车牌号。发生概率微乎其微的事情，如果已经发生，那么它发生的概率就肯定不是微乎其微了。

对上述两种得州神枪手谬误的精辟概述，可参见诺贝尔奖得主罗纳德·科斯的辛辣言辞：“只要拷问数据的时间足够长，它就会屈打成招的。”

下面让我们一起来看几个“得州神枪手”的例子。

我要再喝一杯咖啡

20世纪80 年代早期，据全世界顶尖的医学期刊《新英格兰医学期刊》报道，广受赞誉的研究者、哈佛公共卫生学院院长布莱恩·迈克马宏所带领的团队发现“饮用咖啡与胰腺癌有极大关联”。这个来自哈佛大学的团队建议人们不要再喝咖啡，以降低患胰腺癌的风险。在此项研究之前，迈克马宏自己每天都喝三杯咖啡，在此之后他就再也不喝了。

这就出现了得州神枪手谬误1 中的问题。该研究旨在调查喝酒或抽烟与患胰腺癌之间的联系，迈克马宏研究过酒类、香烟、雪茄、烟斗，没有任何发现，于是他就继续找，又研究了茶叶。最后，他终于在咖啡上有了发现：胰腺癌患者喝的咖啡多。如果上述六项测试都单独进行，每项测试都包含一些与胰腺癌无关的因素，那么有26% 的概率会在至少一项测试中产生一个具有统计学意义（P值为0.05）的关联，也就是说有26% 的机会可以无中生有。

迈克马宏的研究还有另一个缺陷。他将患胰腺癌的住院病人与患其他疾病的病人进行对比，并且这些病人都由同一批医生负责。问题在于，这些医生通常都是胃肠专科医生，他们的很多患者都因为害怕溃疡恶化而戒了咖啡。但胰腺癌患者没有停止喝咖啡，他们中喝咖啡的人更多。所以并非喝咖啡导致了胰腺癌，而
是患其他疾病的病人不再喝咖啡了。

后续研究——其中一项来自迈克马宏的团队——也未能证实最初的研究结果。这一次，他们得出的结论是：“据观察，与早前研究相比，喝咖啡对男性或女性都不存在危险。”美国癌症协会也认为：“最近的科学研究表明，喝咖啡和患胰腺癌、乳腺癌等癌症没有任何关系。”

更近期的研究不仅驳斥了迈克马宏最初的研究结果，而且结果显示喝咖啡（至少对男性来说）反而会降低患胰腺癌的概率！

癌症群

20世纪70 年代，流行病学家南希·韦特海默和物理学家埃德·利珀驾车穿过科罗拉多州丹佛市去考察一些人的住所，这些人未满19 岁便因身患癌症离开了人世。他们试图发现这些人住所的共同特征。两人注意到，很多罹患癌症的人都住在大功率电力线附近，因此得出结论：暴露于电力线的电磁场中会导致罹患癌症。

记者保罗·布罗德为《纽约客》写了三篇文章，报道了关于电力线和癌症相关系数的其他奇闻逸事。他还做出了不详警告：“数以千计没有戒备的儿童和成人会罹患癌症，其中很多人都会英年早逝，他们本不该遭此厄运，一切只因他们暴露在电力线的电磁场中。”

这种言论随之在全国造成轰动，为咨询专家、研究人员、律师和包括高斯计（测量磁感应强度的仪器）在内的各种装置提供了有利可图的机会，人们可以用高斯计在家测量电磁场的强度（电磁场读数高的房间会被封住，只用作储物间）。幸运的是，政府并没有扯掉整个国家的电力线。

此次恐慌事件的问题在于，即使癌症患者在人口中只是随机分布的，数据挖掘都更有可能发现受害者在地理上集中的地方。为了说明这一点，我虚构出一个有1 万名居民的城市，其住所均匀分布于整座城市，每个人患癌的概率都是1%（我忽略了家人一起居住的情况和年龄因素）。然后，我使用计算机随机数字生成器来决定谁是这座虚构城市中的癌症患者。据此得出的癌症患者分布如下图所示。每个小黑点代表住着一名癌症患者的一户人家，而白色区域即无癌症患者居住。

随便一个像样的数据挖掘软件都能轻易发现，图 9.1 的底部明显有一处癌症患者集中地。如果这座城市真实存在，我们就可以驾车到患者住所附近，肯定能得到一些特别发现。或者使用数据挖掘软件搜遍数据，寻找异常状况。如果我们再将住在球场附近的居民患癌率与住所远离球场的居民患癌率相比，猜猜结果如何？球场附近的患癌率更高，这表明住在球场附近可致癌。

图中还显示了癌症堡垒，即无人患癌的区域。利用数据挖掘软件或驾车到附近瞧一瞧，一定会得到一些关于这个无人患癌区域的特殊发现。可能该地附近建有水塔。如果我们再将住在水塔附近的居民患癌率与住所远离水塔的居民患癌率相比，一定能发现水塔附近的患癌率更低。这就是我们选择这个区域的原因——这里没人患癌。

无论是在球场还是水塔附近，都存在同样的问题——得州神枪手谬误 2。如果我们使用数据来创造理论（小联盟球场会致癌，水塔可防癌），数据当然会支持理论了！怎么会有相反结果呢？我们会捏造出与数据不吻合的理论吗？

用来创建理论的数据肯定不适于再来检验该理论。我们需要全新的数据。其他国家的研究没有发现电磁场和癌症之间存在关联。以啮齿动物为对象的实验研究发现，比电力线所产生的更强的电磁场对死亡率、患癌率、免疫系统、生育率或出生缺陷率都没有影响。

对电力线的恐慌有什么理论基础吗？科学家非常了解电磁场，并没有任何合理理论能证明电力线的电磁场会致癌。电力线的电磁能量远比月光的电磁能量弱得多，其电磁场也比地球的磁场更弱。

权衡理论论证和实验结果后，美国国家科学院得出的结论是：电力线并没有造成公共健康危险，无须提供经费开展进一步研究，更别说撤掉电力线了。全美顶尖医学期刊也发声力挺，同意不应再把研究资源浪费在这个问题上。

1999 年，《纽约客》发表了一篇题为“癌症集群之谎言” （The Cancer-ClusterMyth）的文章，含蓄地驳斥保罗·布罗德早先的报道。尽管如此，癌症集群具有意义的想法还是继续存在。互联网上，由政府赞助的交互式地图可按地理区域显示各种癌症的发病率，精细到人口普查的街区。每年都需要花费数百万美元来维护地图数据，虽然数据是最新的，但很可能具有误导性。其中一个交互式网站拥有22种癌症、2种性别、4个年龄段组别、5个种族和3 000多个县的癌症死亡率数据。从数百万种可能的相关系数中，数据挖掘软件一定可以轻易发现令人恐惧的相关系数。

为了缓解这种恐惧，美国疾病控制与预防中心创建了网页平台，任何人都可以在此报告自己发现的癌症集群。即使该中心提醒：“我们会对此进行后续调查，但需要花费多年时间才能完成，结果通常也不能得出定论（也就是说，通常都无法找到原因）。”每年仍有1 000多例癌症集群被举报和调查。

来源：《错觉：AI如何通过数据挖掘误导我们》

数据挖掘是人为而非智能

天津大学马寅初经济学院2022年预聘教

北京大学国家发展研究院招聘事业编制

北大汇丰智库研究实习岗位招聘启事

179人看过

45人看过

1345人看过

163人看过

222人看过