当技术像机器学习一样被炒作时,就会出现误解和错误概念。以下是对机器学习到底能干些什么和不能干些什么的一个清醒认识。
机器学习正在被证明非常有用,认为它们能够解决所有的问题以及能够应用到所有环境中的想法十分具有吸引力。然而,与其他任何工具一样,机器学习只在特定的领域有用,特别是对于那些一直困扰我们但我们又清楚无法通过雇用充足人员加以解决的问题,或是有着明确目标但又无明确方法得以解决的问题。
每一家企业可能都会以不同的方式利用机器学习的优点。在管理咨询公司Accenture近期的调查中,42%的企业主管表示,他们认为到2021年,所有的创新活动背后都有人工智能的支持。但是如果能够清醒地认识到炒作的存在,避免由误解机器学习的能力而造就的神话,这将会让我们受益匪浅。
误区1:机器学习就是人工智能
机器学习和人工智能常常被作为同义词使用,然而尽管机器学习已经成功由实验室走入现实世界,但人工智能的覆盖领域更为广阔,如计算机视觉、机器人技术、自然语言处理,以及不涉及机器学习的约束补偿等解决方案。我们可以把它想象成能让机器看起来更聪明的东西。有些人所担心的那种将会与人类竞争甚至是攻击人类的“人工智能”,上述这些没有一个是。
我们应当对各种流行词汇保持清醒和精准认识。机器学习是指学习模式和利用大数据集预测结果。结论可能貌似“智能”,但是实际上它们只是以前所未有的速度和规模展开运算的应用统计学。
误区2:所有数据都是有用的
我们需要为机器学习提供数据,但是并非所有的数据对机器学习都有用。为了训练这些系统,我们需要具有代表性的数据,这些数据要涵盖机器学习系统将要处理的模式和结果。数据中不能有无关的模式(如所有男生都站着而所有女生都坐着的照片,或是所有的汽车都在车库中而所有的自行车都在泥泞野外的照片)。因为我们创建的机器学习模型将反映那些过于具体的模式,并在我们使用的数据中查找这些模式。所有用于培训的数据应当被清楚地标记,同时标示出它们的特征,这些特征还要与将要询问机器学习系统的问题相匹配。这些需要做大量的工作。
不要想当然地认为我们拥有的数据都是干净、清晰、具有代表性或易于标记的数据。
误区3:我们总是需要大量的数据
得益于更好的工具、能够并行处理海量数据的GPU等计算硬件、大量被标记的数据集(如ImageNet和斯坦福大学问答数据集),机器学习在图像识别、机器阅读理解、语言翻译等领域取得了重大进展。借助被称为“迁移学习”的技术,我们在特定领域内并不需要庞大的数理集才能得出优秀的结果。相反,我们可以教机器学习系统如何学习使用一个庞大的数据集,然后让它们使用这种能力去学习我们自己的一个要小很多的训练数据集。这就是Salesforce和微软Azure自定义视觉API的工作原理:只需要30-50张能够展示我们想要的分类内容的图片就能得出优秀结果。
迁移学习可通过相对较少的数据就为我们的问题定制一个预先训练好的系统。
误区4:任何人都可以创建一个机器学习系统
目前已经出现了许多针对机器学习的开源工具和架构,以及大量教授我们如何使用它们的培训课程。但是机器学习仍然是一个极为专业的技术,我们需要知道如何准备数据并将它们拆分用于训练和测试,需要知道如何选择最佳的算法和使用何种启发式算法,以及如何将它们变成一个可靠的生产系统。此外,我们还需要监测系统,确保随着时间的推移结果保持相关性。无论是市场发生了变化,还是机器学习系统已经足以满足应对不同类型的客户,我们都需要不断检查,让模型始终与我们的问题相匹配。
让机器学习保持适用需要丰富的经验。如果是刚开始起步,在聘用数据科学和机器学习专家创建定制系统的同时,我们还需要关注能够从内部代码调用的预训练模型的API。
误区5:数据中的所有模式都有用
哮喘病人、胸痛病人或心脏病病人以及任何年龄在100岁的老人在得了肺炎后的存活率要比我们想象的高。事实上,用于实现住院自动化的简单的机器学习系统可能会让他们回家,不让他们接受住院治疗(基于规则的系统使用与神经网络完全相同的数据进行训练)。病人有如此高的存活率的原因在于,因为肺炎对这几类病人非常凶险,因此他们总是能够立即被安排住院治疗。
系统会查看数据中的有效模式,而有些(尽管可以帮助保险公司预测治疗成本但是)对于选择谁该住院来说并不是一个有用的模式。更为危险的是,我们不知道那些无用的反模式在我们的数据集中,除非我们已经知道它们。
在其他的一些情况下,系统会学习一些没有用的有效模式(例如,一种有争议的面部识别系统,可以从自拍中准确预测性取向),因为它们没有清晰明确的解释(在这种情况下,照片显示的是社交线索,如姿势,而非其他一些天生的特征)。
“黑匣子”模型是有效的,但我们不清楚它们学到了什么模式。更为透明和易懂的算法,如广义加性模型会让模型学习到什么变得更为清楚,因此我们可以决定这些模式是否对部署有用。
误区6:强化学习已经为投入使用做好了准备
事实上,目前在用的所有机器学习系统使用的都监督式学习。在大多数情况下,它们训练的都是已经被明确标记过的数据集,人类参与了这些数据集的准备。组织管理这些数据集费时费力,因此人们对非监督式学习,特别是对于强化学习(RL)更为感兴趣。在强化学习中,代理会不断摸索尝试,与它们的环境进行交互,接收由正确行为带来的奖励。DeepMind的AlphaGo系统在使用监督式学习的同时使用了强化学习才最终击败了与之对弈的围棋高手。卡内基梅隆大学的Libratus也是在使用了强化学习加上其他两种人工智能技术才最终在一对一不限注德州扑克中击败了世界顶级选手。研究人员目前正在对强化学习展开广泛的测试,领域涵盖了从机器人技术到安全软件测试等各个方面。
强化学习目前在研究领域之外并不常见。谷歌通过让DeepMind学习如何更为高效的降温为数据中心节约了电力。微软通过一个名为上下文老虎机(Contextual Bandits)的强化学习算法为MSN.com网站访问者呈现个性化的新闻头条。问题在于现实世界的环境很少有比较轻松的发现性奖励并且能够立即进行反馈,特别是代理在事情发生之前采取多种行动则属于诱骗奖励。
误区7:机器学习没有偏见
由于机器学习是从数据中学习,因此它们会复制数据集中的所有偏见。搜索首席执行官的图片可能会显示的都是男性白种人首席执行官的照片。之所以会这样,是因为与非男性白种人相比,担任首席执行官的男性白种人要多。这表明机器学习也会放大这种偏见。
被经常用于训练图像识别系统的COCO数据集中有男性和女性照片,但是更多的女性照片的背景中有厨房设备,而男性照片的背景中更多的是计算机键盘和鼠标或者是网球拍和滑雪板。如果依靠COCO训练系统,它们会更为强烈地将男性与计算机硬件联系在一起。
一个机器学习系统还能够将偏见施加给另一个机器学习系统。利用流行的架构训练机器学习系统,以一个单词作为向量展示其中的关系,那么它们学到的可能是“男性相对于女性就像计算机程序员相对于主妇”或“医生相对于护士就像老板相对于接待员” 这样的刻板印象。如果我们使用带有这种偏见的系统进行语言翻译,如将芬兰语或土耳其语等性别中立的语言翻译为区别性别的语言如英语,那么就会出现将“ta是医生”翻译成“他是医生”,将“ta是护士”翻译成“她是护士”。
在购物网站进行相似物品推荐非常有用,但是当涉及敏感领域并能够产生一个反馈回路时,那么问题就来了。如果你在Facebook中加入了一个反对接种疫苗的群,Facebook的推荐引擎将会推荐关注各种阴谋论的群或是相信地球是扁平的群。
认识到机器学习中的偏见问题十分重要。如果我们不能在训练数据集中移除这些偏见,那么我们可以使用能够调整词对中性别联系的技术减少偏见或是向推荐中增加一些无关的项目以避免“过滤气泡”。
误区8:机器学习仅被用于做好事
机器学习提升了反病毒工具的能力,它们会关注全新的攻击行为,一旦出现就能发现它们。同样的,黑客也在使用机器学习研究反病毒工具的防御能力,通过分析大量的公共数据或是以前成功的钓鱼攻击从而发起大规模针对性更强的钓鱼攻击。
误区9:机器学习将取代人类
人工智能将会与我们抢饭碗,改我们正在做的工作以及我们的工作方式已经成为了一种普遍的担心。机器学习则能够提高效率和合规性同时降低成本。从长远看,机器学习将在淘汰目前一些岗位的同时创造一些新的工作岗位。由于复杂性或规模性的缘故,许多现在已由机器学习帮助实现自动化的工作在以前要想实现自动化是不可想象的。例如,我们无法雇用充足的人员去看每一张贴在社交媒体上的照片,查看照片中是否有自己公司的品牌的特征。
机器学习已经开始在创造新的工作机遇,如通过预测性维护提升客户体验,为业务决策提升建议和支持。与之前的自动化一样,机器学习能够解放员工让他们能够发挥自己的专业知识和创造力。
全部0条评论
快来发表一下你的评论吧 !