关于机器学习的常识性概念是需要注意的

nlfO_thejiangme 2018-07-03 2738

电子说

1.2w人已加入

描述

机器学习已经变得日益重要，几乎像电力一样融入了所有产品的日常中。如何利用机器学习开发出更好的产品，如何成为一名合格的机器学习产品经理可能是很多人都想知道答案的问题。我们在先前的文章中介绍了机器学习最适宜处理的问题以及作为产品经理在构建机器学习产品时需要掌握的技能。那么在了解了机器学习的能力学会了技术之后，我们还需要来谈一谈这个领域常见的误区和前任踩过的坑。

当与的数据科学家或工程师沟通的时候，以下几点关于机器学习的常识性概念是需要注意的。作为一名产品经理，通常情况下没有很深的学术造诣，但在于团队进行沟通和推动项目的过程中，基本概念的理解和逻辑需要清晰和正确的。

数据问题

数据缺失

相信每个人对于机器学习的数据需求都是毋庸置疑的。（在这里提到这个问题有点不太适宜，尤其是在这样一个谈论机器学习的博客中提及）然而，在市场中与其他公司进行业余往来和交流的过程中，作者发现有许多希望以智能软件系统和机器学习为解决策略的公司却没有数据。如果你没有数据，是不能应用机器学习的；你的数据可以来源于本公司的积累，公开获取或者是合作公司的数据。如果没有数据，就无从谈起机器学习。这也是作为筛选评价人工智能创业公司的一个重要指标：有一些公司宣称自己有很炫酷的人工智能科技却没有数据来驱动这项算法，那么你就要谨慎的审视这家公司了。

数据量小

现今流行的各种机器学习算法都依赖于大数据，并且在数据量大的时候工作效果更好。当数据量较小的时候，你也可以运用机器学习算法，但是一定要注意以下两点：所选用的模型不受局外点的影响；所选模型没有过度复杂。当数据量有限的时候，选用统计方法比选用机器学习方法往往更加切实有效。比如大部分的医疗临床案列样本量都较小，这个时候选用数据科学来直接分析十分有效。

稀疏数据

有时候，即使你有庞大的数据量，实际可用的数据却往往是十分稀疏的。比如在亚马逊平台上，有成百上千的买家和琳琅满目的商品。每个买家只买其中几样产品，对于大部分的产品来说你无法找到评价。对于购买量极少的商品来说，更加难找到评价和反馈。当使用稀疏数据进行计算时，必须仔细选择你所使用的模型和工具，离线算法可能会提供低于标准的结果，用稀疏数据计算效率也较低，因为数据集中大部分内容是空白的。

高维度数据

如你的数据有多种属性，那么对于模型中的计算和存储资源的消耗是非常大的。高维度数据需要进行降维运算才可以在机器学习模型中应用。在降维的过程中也要十分小心以确保没有丢掉信息。知道到底是哪一个维度的信息对结果起到决定性作用，是基于对数据的敏感性和直觉。产品经理们应该在数据选择的阶段就参与工程师和数据科学家们的讨论。在这个阶段中可以获得产品的直觉和灵感。比如，我们尝试预测一个视频的质量，你可以分析视频的点击率，也可以分析视频的参与度，当一个视频的点击度较高的时候，其实并不一定代表该视频质量高，人们可能只是心不在焉的点开它，但其实把精力关注与浏览另一个页面。所以你在分析时也许会希望再加入其它的维度。

数据清洗

你不能直接把现成的数据拿来套用在机器学习模型上，一个机器学习模型的有效性很大程度上取决于数据质量。数据质量并非指数据特征的丰富性，而是指如何对它进行清洗和处理。你是否移除掉了异常数据，是否对所有域进行了归一化操作，这些都会对你的模型产生影响。数据对模型的影响是：成也萧何败也萧何。只有正确整洁的数据才是得到正确结果的重要保障！

拟合问题

过拟合

为了更好的解释过拟合，我们来看看下面这个故事。在2007年经济危机的时候产生了基金暴跌的现象，看上去不不可能的事件最后却是真的，许多认为不可被撼动的假设最后都被严重扰动。

三天之内，算法产生了严重的扰动，对冲基金损失惨重。本文的作者当时在一家量化对冲基金工作工作。当时，这家公司相较于它们的竞争对手来说损失相对较小。为什么呢？另外一家基金公司相对较新，成立较晚，它们用来训练模型的数据是在2007年前面几年开始的，而那个时候数据从来没有跌过。因此，但它们看到数据暴跌时，模型不知该如何反应。而作者的公司经历过1998年的卢布危机，当时为此付出了代价，但随后并改进了算法使其适应了暴跌的行情。因此，它的损失没有其他公司那样严重。

这个故事讲了一个过拟合的极端实例，对于门外汉来说，事后的优化会多于事前的预测。在这个。例子中竞争对手的模型基于如下的假设而成立：股票市场景气。因此，当经济危机发生时，它不能做出正确的预测，造成了惨痛的损失。

我们如何避免过拟合呢？确保你的模型在更加广泛的数据集中进行验证，并且回过头来想想你的假设，如果在经济有严重波动，用户行为发生变化的时候，它们是否还成立呢？

欠拟合

欠拟合源于你的模型相对于数据而言过于简单。比如，你想试着预测买家是否会在某家超市购买蛋糕粉。购买蛋糕粉的行为是一个随机行为，诸如可支配收入，蛋糕粉的价钱，附近的竞争者等因素均会对最后的决策造成影响，但是，如果你不将其他诸如雇佣率，通货膨胀率，其他零售商的发展等经济行为考虑在内，那么你是不能正确预测在这家超市购买蛋糕粉的行为的。如果你的模型表现欠佳，尝试着回顾你是否找到了足够的数据来分析问题，你是否可以通过其他方法和角度，加入一些更有效的数据来解决此问题？

计算成本

当建立机器学习产品时，另外一个容易被忽略的领域是计算成本。利用AWS和Azure这样的服务，可以帮助提升计算能力。然而，在某种程度上，你需要平衡计算成本和模型复杂度，以及预测结果之间的代价。比如，你不可能存储产品中的每一个数据，你也不可能每次都提供最新的预测。知道你的工程师团队如何平衡计算代价和机器学习模型的准确性的问题，将会帮助你更好的理解产品的性能。

打开APP阅读更多精彩内容