“预测”是美国政府应用机器学习的重要途径

电子说

1.3w人已加入

描述

从奥巴马到特朗普,美国一直重视在政府层面上对AI和机器学习技术的利用和开发。比如预测高中学生辍学率、分析工伤和职业病等个人化的敏感数据,对其自动编码归类等。不过机器学习并不是万能药,利用机器学习需要广泛的数据作为基础,过度滥用可能会产生偏见等不良后果。

就在两年前,人工智能似乎突然出现在了美国政府的议事表中。

2016年8月,时任美国总统巴拉克·奥巴马还担任过《连线》杂志的客座编辑,并与麻省理工学院媒体实验室的负责人Joi Ito就人工智能及其影响进行了访谈。

奥巴马说:“技术开发的早期应该是百花齐放的。政府应该增提供相对轻松的渠道,大力投资研发,并确保基础研究和应用研究之间的交流。”

两个月后,奥巴马政府发布了一份关于人工智能的报告,广泛概述了当时的新兴技术,该报告仅用了几页篇幅提到政府如何从人工智能中获益。在奥巴马离职之前几周,政府发布了第二份报告,主要关注AI技术潜在的经济影响。 “AI提出了许多新的政策问题,这些问题应该是未来主管部门、国会、私营企业和公众讨论和考虑的主题。”报告中写道。

从那以后,特朗普政府为将AI作为研究重点的机构提供了额外的指导。根据2018年5月的一份白宫报告,白宫成立了AI专责委员会,以改善联邦政府对AI相关工作的协调,并确保美国在人工智能方面继续保持领导地位。报告指出,该委员会的工作将包括鼓励“机构与人工智能相关的计划和倡议”。

在过去两年中,各级机构越来越多地寻求利用机器学习,由橡树岭国家实验室的研究人员开发的机器学习技术已被联邦紧急事务管理局用于寻找被熔岩流吞噬的人造结构。密苏里州开发了一种机器学习算法,来预测城市街道上何时形成坑洼。军方已开始使用AI算法来预测坦克上的部件故障。

“预测”是美国政府应用机器学习的重要途径

如果说上面的应用有一个共同的主题,那就是“预测”。

在机器学习中,“预测”的意思是“根据已知的东西推断出未知的东西,”卡内基梅隆大学泰珀商学院助理教授Zachary Chase Lipton说。“事实证明,大量任务都可以通过预测模型来表达。”

将卫星照片、电话呼叫记录、车辆的传感器读数等输入系统,然后要求系统给出输出预测。用历史数据训练机器学习模型,进行模式识别。然而,要想让机器学习真正派上用场,必须明确定义输入和输出,Lipton说。

机器学习可以成为寻找非线性关系的理想工具。线性关系,比如与房屋大小相关的房屋成本,可以通过经典的回归技术得到更好的解释。但有时我们要处理的关系不是线性的。

比如,句子中各个单词之间的关系就不是线性的,照片中像素之间的关系也不是线性的。这些关系很复杂,但机器学习已被证明可以作为寻找这些关系的一种方法。

让数据库井井有条

每年年底,各州的政府机构经常发布年度报告,记录前一年的成功经验和未来的目标。 2017年,伊利诺伊州的报告指出,创新与技术部门致力于进一步使用人工智能、聊天机器人和高级数据分析工具,“通过新技术推动伊利诺伊州以更有效的方式改善对本州公民的服务”。

DoIT首席数据科学家KrishnaIyer表示,该州去年发布了一项信息请求,以更好地了解机器学习和人工智能领域。从与供应商的谈话中可以清楚地看出,该州还没能充分利用这些技术的潜力。

“AI技术的实际应用与其潜力相比存在巨大差距。”Iyer说。

尽管缺乏正式的技术平台,该州还是启动了数个机器学习项目。

伊利诺伊州税务部门已开始使用机器学习来辅助预测税务欺诈行为,教育部们利用机器学习来更好地预测哪些学生在学业上很吃力,并可能退学。

Iyer表示,经过训练的税务欺诈模型,可以发现欺诈行为的历史数据模式。该模型对那些被标记的纳税人的税务欺诈概率进行了预测,使税务部门更容易识别需要提供税务申报澄清的个人。这是在过去的申请季节使用的。

伊利诺伊州预计今年秋季开始使用机器学习模型来辅助教育。模型经过未从高中毕业的学生数据的训练,数据中包括这些学生的学校表现,他们所居住地区的人口统计数据和其他变量信息。Iyer表示,该模型为当前学生预测了低,中,高(辍学)风险,学校可以为有辍学风险的学生进行有针对性的干预。

让数据自己对自己进行归类

纽约市市长办公室的数据智能创新中心(CIDI)广泛关注利用数据解决城市内的无家可归者、市内的经济问题和健康问题。

最近的一项研究分析了刚摆脱无家可归状态的年轻人,将他们化为几个群体中,比如经常入狱,一直有保障性住房,一直有补贴住房,早年曾无家可归,后来曾无家可归等等。

“这有助于我们预测哪些人可能属于哪一群体,同时有助于我们了解每个群体的资源是什么,”CIDI执行董事Maryanne Schretzman说。

这项工作需要一些严肃的数据加工。 CIDI使用来自8795个人的真实数据创建了个人资料,这一过程需要从多个数据源中提取并保护敏感数据:如青少年和社区发展部、无家可归者服务部、儿童服务管理局、监狱和医院等。

敏感数据从未离开过市政府的内网。 Schretzman解释说,政府使用加密文件传输系统实现数据的转移。

那么机器学习在哪里发挥作用?在分类过程中。在项目开始之前,这几个类别没有预定义;团队使用R统计计算环境中的TraMineR软件包进行数据分析。

“机器学习让你能够指导数据自己进行分类,”Schretzman说。 “数据本身能够对自己进行分类,这太酷了。”

跃迁:从“浅层”神经网络到深度神经网络

上面说的纽约市和伊利诺伊州的项目使用的技术可以算是机器学习,但只是对该技术的简单应用。不过,美国劳工统计局(BLS)多年来一直在使用机器学习,并准备从现在的“浅层机器学习”跃迁到深度神经网络的使用上。

每年,BLS都会收集大量数据。比如工伤和职业病调查项目包含了30万份关于工人受伤情况的书面说明。这些响应必须进行编码,比如要确保“reporter”和“journalist”的编码是相同的,以及对伤情进行正确的分类等。

直到2013年,这个编码过程都是手工完成的,大约需要20000小时才能完成。但2013年后,该机构开始使用机器学习,用手工编码的历史调查数据来训练模型。现在,已有超过一半的编码是由机器完成的。

每天晚上完成的调查都是通过自动编码模型运行的,可以得出关于编码结果的准确性的概率。如果这个概率低于某个水平,则发送给工作人员进行人工编码。

BLS的经济学家Measure表示,该部门一直使用的“浅层机器学习”非常擅长识别单词或单词对,但在识别文本字符串时会有困难。“有时要理解一句话,需要理解一个词序在整体上的含义。”

比如像“没有脑震荡的迹象”这样的短语中,浅层机器学习可能会识别出“脑震荡”这个词,甚至也会识别出“脑震荡的迹象”,但很难识别出“no”一词否定了“脑震荡”。深度神经网络可以模拟复杂的非线性关系,可能会对解决这个问题有所帮助。

BLS已经在使用Google的TensorFlow等开源软件,在现有硬件上运行其浅层机器学习模型。不过,随着该机构越来越多地使用深度神经网络,它需要NVIDIA GPU服务器的处理能力。尽管云服务商也可以提供这种计算力,BLS数据的敏感性要求其需要使用并管理自己的硬件。

未来:机器学习是灵丹妙药,但不是万能药

看起来,机器学习似乎可以用来解决任何问题,但事实远非如此。

“确保你有训练数据,”BLS的经济学家Measure说。机器学习“无法解决所有问题,但可以解决一些问题,在可以解决的问题中,需要有大量的训练数据,并且找不到更简单的自动化解决方法。”

Delmolino表示,机器学习最容易应用的领域是IT票务和呼叫中心等,这些领域会产生大量的请求,拥有大量的历史数据。他说,机器学习可以对“任何高容量,长等待时间或大量积压”的事务产生很大影响。

Lipton警告说:“这项技术可以被使用,并不意味着它就应该被使用。由于模型的使用形成了一个反馈循环,预测警务等应用程序有可能继续或加剧社会中已有的偏见。”

“如果警察被派去巡逻的地区是基于’犯罪会发生在哪里’,如果你去寻找犯罪,你最终可能会发现犯罪,但结果有可能是会发现更多的犯罪。一个样本数据有偏差的模型可能认为这些社区发生了不成比例的犯罪,然后它将分配更多的警察。”Lipton补充道。

Delmolino支持关注潜在偏见的必要性。机器学习实施需要主动管理、调整模型以减少随时间的偏差。

他说:“你不能只买一个神奇的工具然后部署,你必须意识到这些事情。”

Delmolino预测,机器学习的下一个重要步骤可能是多个模型相互作用并协同工作的能力。

“所以我想,我们会看到一些非常吸引人的需求,比如’我如何确保我的模型互相配合?’”模型之间有没有相互沟通的方式?’”他说。

另一个垫脚石将是机器学习和机器人过程自动化的整合。 RPA提供了自动执行任务的功能,例如传输文件,将数据从一个字段移动到另一个字段或其他计算机进程。

Forrester分析师Craig Le Clair在谈到RPA时说:“目前的情况不太理想。”但随着机器学习与技术的整合,RPA将开始做出更多独立于人类参与的决策。

如果将机器学习比作大脑,那么我们可以将RPA视作肢体,它提供了跨企业网络访问和抓取不同系统的能力,在大脑认为合适的时候做出改变。

“这些都是非常通用的工具,”Lipton谈到机器学习时说,“我认为它们在任何大型组织中都能找到大量的用例,包括政府。”

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分