构建高质量数据集，推动人工智能快速发展

PCB88475579 2019-08-20 2916

电子说

1.2w人已加入

描述

　　随着人工智能技术与产业不断融合，人工智能技术助力传统产业实现新的发展和升级，助力工业经济向数字经济快速转型。目前，人工智能技术在医疗、金融、交通、零售、工业制造、教育、安防等领域均产生良好的发展前景。

　　虽然人工智能技术的行业应用越来越广泛，仿佛真的站在风口准备拥抱下一场革命，但正如专家们所言，对于人工智能的发展，应该保持谨慎的乐观态度。众所周知，沃森是当下诸多人工智能技术和应用的典型代表，其重点领域是医疗（主攻癌症的预测与治疗）。然而，在经历了六年时间、耗资数十亿美元之后，Watson的诊断结果却令人沮丧。人工智能系统需要基于数据调整参数，以达到最佳拟合效果，由于数据的复杂性和相对不可用性，人工智能的效用往往存在不确定性。

　　同样对IBM沃森而言，当Watson获得足够多的“条理清楚”的数据时，能通过不断学习给出可能有用的答案。但在实际操作中，一方面Watson使用的训练数据并不丰富，例如，训练肺癌治疗方案的数据仅有635例，其它疾病更是少得可怜。另一方面，由于患者就医记录没有全部联网，医生经验录入成为沃森分析最核心的来源，这意味着当它扫描大量文件时，必然要识别复杂的信息并从中抽取关键内容。例如，患者的病历可能包含医生的大量注释，这些注释又是由简写和短语构成的，机器想完全理解它们并非易事。总结IBM沃森失败的原因，其算法算力毋庸置疑，而在数据处理上，除了收集的样本数据量不足，最大的问题便是在数据质量不高，几十万份病例下来，能够用的可能才几万份病例。这一切导致了沃森不能提供足够的敏感性、特异性和精准性，而这都是临床决策所必需的。

　　当前人工智能还面临诸多挑战，例如数据孤岛问题、隐私保护问题、安全问题等瓶颈。一项2018年的研究显示，人工智能的采纳率急剧增加，从2017年的38%增至2018年的61%，医疗保健业、制造业和金融服务业等各个行业都是如此。但根据国际数据公司（IDC）发布的一份报告指出，评估了4个行业（包括医疗健康行业）的“数据质量”，范围为1（严重）到5（优化）。IDC将医疗健康行业的数据质量评为2.4。报告显示，60%的医疗行业受访者缺乏数据处理能力。

　　构建高质量数据集，推动人工智能快速发展

　　当前，不管是人工智能技术的研发以及应用领域的发展，“数据”都是一个不可或缺、位于重中之重的因素。机器学习等AI技术的基础是应用软件分析系统对数据集进行分析、挖掘。而数据集的大小至关重要，因为机器学习需要特定、大量的数据。只有数据上传足够高效，才能够在相关工作中体现出及时，而准确的数据是人工智能技术研发、训练的关键，以及其能够在生活中起到多大作用的一个考量因素。乍一看，医疗健康行业应该具有优势：该行业拥有大量数据。到2025年，医疗健康领域的数据数量将超过金融、媒体和制造业等领域，其年复合增长率达到36%。这在很大程度上是由于医疗健康领域新兴技术的不断涌现，例如医学成像、康复机器人以及不断成熟的大数据分析工具。但不幸的是，数量只是数据的一个方面：质量是另一个关键。医疗领域的数据往往数量足够，但质量堪忧。

　　GetApp的一项研究表示，他们调查了五个行业（包括医疗健康行业）的近500名小企业领导者，当询问受访者数据分析过程的哪个方面让他们感到信心最低时，25%的医疗行业受访者表示，他们对收集“相关数据”——可以提供决策的高质量数据的能力最不自信，在所有五个领域（包括医疗行业）数据质量是他们关注的主要问题。加拿大的一家保险公司想要根据保险公司的工作地点来衡量保险公司的风险时，其分析产生了垃圾结果，究其原因，是在对距离数据的标注时，分别以英里和公里为标记，使其结果出现了偏差。而在Dun&Bradstreet的一项调查中，很多组织表示，缺乏正确的数据是进一步实施人工智能的最大障碍之一。

　　大数据是人工智能技术研发、训练的关键，是人工智能长期发展的重要保障。只有当人工智能系统能够获取更为准确、及时、一致的高质量数据，才能提供更有效、有用、精准性高的智能化服务。根据埃森哲在2018年4月的一份调研发现，中国制造企业在运用人工智能技术时面临一系列挑战。其中，52%的受访中国企业将数据质量列为突出挑战，数据安全与网络安全紧随其后（47%）。在2017年4月的一次研讨会上，围绕人工智能话题，某业界专家提出：“高质量的数据是人工智能的前提和基础”。当前，不管是人工智能技术的研发，还是人工智能应用领域的发展，“数据质量”都是一个不可或缺、位于重中之重的要素。

　　用户隐私安全问题成制约人工智能发展因素

　　大数据，被视为人工智能发展的基石。在过去很多年里，人们并没有意识到大数据使用中的隐私风险，企业对用户数据的收集使用达到了无节制的程度，结果是“数据丑闻”在近两年集中爆发。比如今年刚被曝光的IBM，为了进行人脸识别训练，未经当事人许可，便从网络图库上获得了近100万张照片。亚马逊的智能音箱Alex，也屡次因隐私问题引发美国用户的质疑。虽然企业总会辩称匿名化处理后的数据无法对应到具体的用户，人们还是无法完全放下担忧。根据加州大学伯克利分校的一项新研究显示，人工智能的进步为人们健康数据的隐私性带来了新威胁。业内一项人工智能相关调查报告也显示，8成受访者担心人工智能会威胁自己的隐私，3成受访者已经感受到了人工智能给自己工作带来的威胁。

　　作为新一轮科技革命和产业变革的重要驱动力量，人工智能正在深刻影响社会生活、改变发展格局。同时，人工智能如同一把“双刃剑”，如果应用不当，就可能带来隐私泄露的伦理风险。如何在人工智能应用中兼顾隐私保护，确保安全、可靠、可控，是一项亟须关注的伦理课题。

　　2019年9月5日，由北京大学、国家电网全球能源互联网研究院与华矩科技三家产学研代表联合发起的第三届大数据数据质量管理国际峰会将在北京举办，峰会以“数以质造质造未来”为主题展开深入探讨与交流，荟萃技术发展与产业升级，汇聚国内外数据质量学术大拿、技术大拿、行业应用及技术创新者，不仅从更新更全的角度剖析数据质量的前沿发展，而且更贴合各行业各领域深度的业务场景，提供全新的视角与思考。

　　针对人工智能领域，DQMIS2019特设数据质量与人工智能的结合主题板块，深度挖掘机器视觉、智能机器人、大数据与数据服务、AI+产业等前沿技术话题，邀请了国内外技术大咖及行业领袖现身说法，分享人工智能发展过程的数据质量难点与实践，给人工智能应用与发展带来更多启发与探讨。

打开APP阅读更多精彩内容