在前面的部分中,我们完成了机器学习的一些实践应用,将模型拟合到各种数据集。然而,我们从未停下来思考数据最初来自何处,或者我们最终计划如何处理模型的输出。很多时候,拥有数据的机器学习开发人员急于开发模型而没有停下来考虑这些基本问题。
许多失败的机器学习部署都可以追溯到这种模式。有时,根据测试集的准确性衡量,模型似乎表现出色,但当数据分布突然发生变化时,部署就会出现灾难性的失败。更阴险的是,有时模型的部署本身就是扰乱数据分布的催化剂。举例来说,我们训练了一个模型来预测谁将偿还贷款与违约贷款,发现申请人选择的鞋类与违约风险相关(牛津鞋表示还款,运动鞋表示违约)。此后,我们可能倾向于向所有穿着牛津鞋的申请人提供贷款,而拒绝所有穿着运动鞋的申请人。
在这种情况下,我们从模式识别到决策制定的考虑不周的飞跃以及我们未能批判性地考虑环境可能会产生灾难性的后果。首先,一旦我们开始根据鞋类做出决定,客户就会了解并改变他们的行为。不久之后,所有的申请者都会穿着牛津鞋,而信用度却没有任何同步提高。花一点时间来消化一下,因为类似的问题在机器学习的许多应用中比比皆是:通过将我们基于模型的决策引入环境,我们可能会破坏模型。
虽然我们不可能在一个部分中对这些主题进行完整的处理,但我们的目的是在此揭露一些常见的问题,并激发早期发现这些情况、减轻损害和负责任地使用机器学习所需的批判性思维。有些解决方案很简单(要求“正确的”数据),有些在技术上很困难(实施强化学习系统),而另一些则需要我们完全走出统计预测的领域,解决有关伦理的哲学难题算法的应用。
4.7.1. 分配转移的类型
首先,考虑到数据分布可能发生变化的各种方式以及可以采取哪些措施来挽救模型性能,我们坚持使用被动预测设置。在一个经典设置中,我们假设我们的训练数据是从某个分布中采样的 pS(x,y)但是我们的测试数据将由来自不同分布的未标记示例组成 pT(x,y). 我们已经必须面对一个发人深省的现实。没有关于如何做的任何假设pS和pT相互关联,学习一个鲁棒的分类器是不可能的。
考虑一个二元分类问题,我们希望区分狗和猫。如果分布可以以任意方式移动,那么我们的设置允许输入分布保持不变的病态情况:pS(x)=pT(x),但标签都被翻转了: pS(y∣x)=1−pT(y∣x). 换句话说,如果上帝可以突然决定未来所有的“猫”现在都是狗,而我们以前所说的“狗”现在是猫——投入的分配没有任何变化p(x),那么我们就不可能将这种设置与分布根本没有改变的设置区分开来。
幸运的是,在对我们的数据未来可能发生变化的方式的一些限制性假设下,有原则的算法可以检测到变化,有时甚至可以即时适应,从而提高原始分类器的准确性。