机器视觉
近年来,深度学习算法推动人工智能实现了快速发展。以深度学习为基础的机器学习可以让计算机模拟或实现人类学习行为,从而不断改善自身性能,其应用正遍及人工智能的各个领域,并在各行业得到爆发式增长。但机器学习也面临着各种挑战和风险。美国《哈佛商业评论》杂志2021年1/2月刊发表欧洲工商管理学院(INSEAD)研究人员鲍里斯·巴比克(Boris Babic)、I. 格伦·科恩(I. Glenn Cohen)和西奥多·埃凡杰努(Theodoros Evgeniou)合著的文章《当机器学习误入歧途》(When Machine Learning Goes Off the Rail),对其可能带来的风险和应对方法进行了讨论。
机器学习失误的三大原因
机器学习与之前的数字技术的最大区别在于,它们能够独立做出越来越复杂的决定——比如交易哪些金融产品、车辆如何应对障碍、诊断患者是否患病——并不断适应新数据。但这些算法并不总是顺利运行。它们并不总是做出合乎道德或准确的选择。这里有三个基本原因。
其中一个原因很简单。算法做出了如此多的预测,很可能有些预测是错误的。出错的可能性源于很多因素,包括用于训练算法的数据的数量和质量,所选机器学习方法的具体类型,系统是否只使用可解释的算法(意味着人类可以描述它们如何做出决定),这可能不允许系统实现最大的准确性。
其次,机器学习操作的环境本身可能会进化或不同于算法开发时所面对的环境。虽然这可能以多种方式发生,但最常见的两种是概念漂移和协变量漂移。
对于前者,系统使用的输入和输出之间的关系随着时间的推移并不稳定,或者可能被错误地指定。以股票交易的机器学习算法为例,如果只使用低市场波动和高经济增长时期的数据进行训练,那么当经济进入衰退或经历动荡时——比如在新冠疫情大流行这样的危机期间——它可能表现不佳。随着市场的变化,投入和产出之间的关系——例如,公司的杠杆程度与其股票回报之间的关系——也可能发生变化。在商业周期的不同阶段,信用评分模型也可能出现类似的偏差。在医学领域,概念漂移的一个例子是,基于机器学习的诊断系统使用皮肤图像作为检测皮肤癌的输入,但由于没有充分捕捉到人的肤色(可能因种族或日晒而不同)与诊断决策之间的关系,无法做出正确的诊断。这些信息甚至在用于训练机器学习模型的电子健康记录中都找不到。
当使用过程中输入到算法中的数据与训练算法的数据不同时,就会发生协变量移位。即使算法学习到的模式是稳定的,并且没有概念漂移,这种情况也会发生。例如,医疗设备公司可以利用大城市医院的数据开发基于机器学习的系统。但是,一旦该设备上市,农村地区医护人员输入该系统的医疗数据可能与开发数据不太一样。城市医院的病人可能更集中于某些社会人口群体,他们拥有在农村医院不常见的基本医疗条件。只有当设备在市场上比在测试时出错更多时,这种差异才会被发现。考虑到市场的多样性和它们变化的速度,预测系统运行环境中会发生什么变得越来越具有挑战性,而且没有多少数据能够捕捉到现实世界中发生的所有细微差别。
机器学习可能做出错误决定的第三个原因与它所嵌入的整个系统的复杂性有关。以一种根据医生输入的图像诊断疾病的设备IDx-DR为例,它可以识别糖尿病视网膜病变和黄斑水肿等眼部疾病,是美国食品和药物管理局批准使用的第一种基于机器学习的自主医疗设备。诊断的质量取决于提供的图像有多清晰、设备使用的具体算法、算法使用的数据、输入图像的医生是否接受了适当的指导,等等。有着如此多的参数,很难评估这样的设备是否和为什么会出错,更不用说确定它的行为了。企业应对风险的具体方法
那么,应该如何管理机器学习现有和正在出现的风险呢?制定适当的流程,提出正确的问题,采用正确的思维框架,这些都是重要的步骤。
需要把机器学习看作一个有生命的实体,而不是一种无生命的技术。以企业为例,由于对员工的认知测试无法揭示他们在加入现有团队时的表现,实验室测试也无法预测机器学习系统在现实世界中的表现。高管们应该要求全面分析员工、客户或其他用户将如何应用这些系统并对他们的决定作出反应。即使监管机构没有要求,企业也可能希望对其基于机器学习的新产品进行随机对照试验,以确保其在推出前的安全性、有效性和公平性。但他们也可能想要分析产品在实际市场中的表现,因为那里有各种类型的用户,看看产品的表现是否在他们之间有所不同。
此外,应用该技术的公司应该将这些算法做出的决策与在相同情况下不使用它们做出的决策的质量进行比较。在大规模部署产品之前,特别是那些没有进行随机对照试验的产品,公司应该考虑在有限的市场上测试它们,以便更好地了解它们在各种因素影响下的准确性和行为——例如,当面对不同来源的数据或环境变化时。
应该制订计划,在机器学习产品上市前对其进行认证。监管机构的做法提供了一个很好的路线图。例如,2020年,美国食品药品监督管理局发表了一篇论文,提出了一种新的监管框架,用于修改基于机器学习的医疗设备软件。它提出了一种方法,可以让这类软件在保证患者安全的同时不断改进,包括对开发软件的公司或团队进行完整的评估,以确保该公司拥有卓越的组织文化,从而能够定期测试其机器学习设备。
基于机器学习的产品和服务以及它们所处的环境在不断发展,很多公司可能会发现它们的技术并没有像最初设想的那样发挥作用。因此,重要的是,他们要寻找方法来检查这些技术是否在适当的范围内运行。其他行业的成功经验可以作为榜样。美国食品药品监督管理局倡议利用不同的数据来源,如电子健康记录,来监控医疗产品的安全性,如果不合格,可以强制撤回这些产品。在许多方面,企业的监控程序可能类似于目前制造业、能源公司或网络安全领域使用的预防性维护工具和流程。例如,这些公司可能会对人工智能进行所谓的对抗性攻击,就像那些常规测试IT系统防御强度的攻击一样。
研发和制定智能安全原则
依赖机器学习的产品和服务——不断吸收新数据,并根据数据做出相应调整的计算机程序——并不总是能做出合乎道德或准确的选择。因此,自主决策的产品和服务需要解决道德困境——这一要求会带来额外的风险、监管和产品开发挑战。学者们现在已经开始将这些挑战定义为算法设计负责解决的问题。例如,特斯拉是应该按照功利主义的成本—收益原则来设计汽车,还是按照康德主义的原则来设计汽车?即使答案是功利主义的,量化也是极其困难的:我们应该如何对一辆车进行编程,让它来衡量三个老年人的生命更重要,还是一个中年人的生命更重要?企业应该如何在诸如隐私、公平、准确性和安全性之间取得平衡?所有这些风险都可以避免吗?的确,有时它们会造成投资损失、有偏见的雇佣,甚至车祸。随着这类产品在各个市场的激增,很多应用该技术的公司将面临新的重大风险。
对此,企业需要建立自己的准则,包括道德准则,来管理这些新的风险,就像谷歌和微软等公司已经做的那样。这些指导方针往往需要非常具体(例如,关于采用何种关于“公平”的定义)才能有用,并且必须针对所涉风险进行调整。如果你使用机器学习来做招聘决定,最好有一个简单、公平和透明的模型。如果你使用机器学习来预测商品期货合约的价格,你可能就不太关心这些价值,而更关心机器学习做出决定所允许的最大潜在经济损失。
幸运的是,现在有很多机构已经参与到了开发和实现的原则中。人们可以从经合组织等机构多年来的努力中学到很多东西。经合组织制定了首个政府间人工智能原则,并在2019年被许多国家采用。经合组织原则促进了创新、可信和负责任、透明的人工智能,尊重人权、法治和多样性,推动包容性增长、可持续发展和人类福祉。他们还强调了人工系统在整个生命周期中的健康性、安全性和持续风险管理。最近,经合组织推出的人工智能政策观察(The OECD AI Policy Observatory)平台对此提供了更多有用的资源,如对全球人工智能政策的综合汇编。
责任编辑:YYX
全部0条评论
快来发表一下你的评论吧 !