保守的机器学习如何拯救日新月异的我们

PCB88475579 2020-04-15 1798

电子说

1.4w人已加入

描述

　　热热闹闹的机器学习浪潮给学术研究和实际应用都带来了很多新意，似乎我们可以就这样乐观地乘着机器学习的列车驶向未来。记者、科幻小说作者 Cory Doctorow 近期的一篇文章就提出了一种角度新颖且有趣的质疑。雷锋网 AI 科技评论编译如下。

　　Cory Doctorow：

　　我成为一个现代科技的爱好者、宣扬者已经好几十年了，我也阅读过无数的发人深省的、影响深远的科技批评观点。不过，这几年的机器学习要远比其他的科技趋势火热许多。从大众媒体报道、从企业宣传上来看，许多曾经在理想中的高科技产品、高科技生活方式，都会借助机器学习的力量来到我们身边。

　　但在这所有美好的愿景背后，也有一些质疑的声音让人反复咀嚼。蒙特利尔麦吉尔大学的 Molly Sauter 在 2017 年写了一篇略微奇怪但富有诗意的文章《Instant Recall》，里面有这么一句「机器学习从本质上来讲是保守的」。

　　机器学习从本质上来讲是保守的，它没法改变，它只能默认未来和过去是一样的。如果你给你的伴侣发消息时候用过「Hey darling」这个开头，那下次你一打出来「Hey」，「darling」就会出现在自动补全列表的第一个位置上，即便这次你可能是要提分手的。如果你打的某个词是你自己此前从未用过的，那么自动补全会根据所有用户的输入统计数据，把最经常出现的词推荐给你。可能大多数时候这不会造成什么问题，但是 2018 年 7 月我给看孩子的保姆（babysitter）发消息打到「Can you sit（带）」的时候，它接下来推荐的自动补全是「on my face and」，这就非常糟糕了，我把这事发到网上以后还引起了不小的争论。

　　这种保守性在每一个使用机器学习算法的推荐、推理系统里面都能看到：当你在网上搜索「电冰箱」之后，算法就会给你打上「想买电冰箱」的标签，然后一直关注着这个「想买电冰箱」的身份的活动，在各种广告位给你介绍各种电冰箱，即便你已经买了也不会停止；或者在视频网站纯粹因为好奇搜索了某个冷门话题，大概了解了、觉得以后再不会看这个话题之后，它还是会反反复复给你推荐这个话题，因为需要「强化推荐你感兴趣的内容」；在社交平台上关注一个人之后，它会给你推荐「相似的人」，即便你自己很明白你为什么没关注他们。

　　不可否认，机器学习有很强的寻找关联性的能力，比如机器学习可以自然地认为「在很长一段时间里张三的通讯录里都存了李四的电话号码和家庭住址，所以他们肯定是好朋友」；但机器学习并不能学到因果关系，所以实际上更容易出现的事情是，张三的通讯录里存了李四的电话号码和家庭住址，这是因为张三在跟踪、偷窥李四，然而 Facebook 扫描了张三的通讯录以后，反而推荐李四把张三加为好友。

　　另外，机器学习也没法提供可靠的推测意图的工具——人类学的一条基础定理就是，「如果没有对话，那么意图就是不可知的」。Cliff Geertz 在 1973 年的《Thick Description》文章里是这么说的，如果你在观察某个人，但你不让他知道你在观察他、他也不知道你在观察他，那你就分辨不出他到底是为了暗示什么而「挤眼」还是只是累了所以「眨眼」。

　　说到底，机器学习所能做的，是找到和它现在就能建模的东西类似的东西。机器学习系统很擅长找到和它们见过的车长得类似的车，也擅长找到和它们见过的人脸长得类似的人脸——这顺便也用非常简单的到底解释了为什么面部识别系统对于白人的脸识别准确率更高，就是因为往往是白人圈子设计的系统、组织收集的数据，所以见白人的脸见得更多而已。

　　机器学习的有害之处就是从这样的「保守」倾向里逐渐渗透出来的。如果你设计一个机器学习系统帮助警察预测他们应该抓谁，系统肯定会建议抓「和已经抓过的人类似的人」。人权数据分析组织的 Patrick Ball 是这样说的：「给警察配备的预测系统预测不了犯罪，它只能预测警察会做什么」。

　　不过，警察根据自己的判断决定逮捕谁，和警察看到系统预测了一个人然后去逮捕他，两者也有一些区别。对不愿意了解其中细节的局外人来说，算法做出的决定更容易显得公众，毕竟「数学是没有歧视的」、「数学是不会说谎的」。只可惜，机器学习里并不仅仅有数学而已，要说「算法能客观地反应社会真实需求」，倒不如说「算法能真实反应设计它的人的观念和习惯」。

　　英国有一个非医疗用药分类的例子。David Nutt 是一位杰出的精神药理学家，英国议会请他对非医疗用途的精神类药品的危险性排一个序，方便政府制定对应的药品管理政策。David Nutt 组织了一群专家做了详细的讨论，他们排了三个顺序出来：对使用者自己的危害的排序，对使用者的家庭的危害的排序，以及对社会整体的危害的排序。然后他对议会说，你只需要告诉我你最想保护哪一类，我就能给你一个准确的排序。排序本身并不难，有很多基于实证的证据可以参考，得到准确的结果；但「最想保护哪一类」是人类需要做的价值判断，没有「是否准确」之分。

　　数据分析这件事由来已久，从第一种税收的开始就需要分析数据；基于数据的科学和工具研究也为我们带来了许许多多的便利。但是指望不可靠的黑盒子在来告诉我们应该要什么、应该怎么做，就会在「理智」和「进步」的表面之下，实际带来更多的固定流程化处理、让人文关怀消失。科学技术能做什么当然重要，但更重要的是，它到底影响了谁、又是在谁的立场上做的这些决定。

打开APP阅读更多精彩内容