基于弱监督学习创建大规模数据集

nlfO_thejiangme 2019-03-19 4028

电子说

1.4w人已加入

描述

对于现代机器学习系统来说，最大的瓶颈在于训练过程中对数据庞大的需求。创建大规模的数据集是十分昂贵的过程，需要消耗大量的人力物力来标注数据，并且随着应用的迭代已有的数据集可能不能满足实际的需要还需要重新标注甚至创建新的数据集。为了克服工业级大规模数据的瓶颈，世界各地的研究人员在这个方向上进行了深入的努力。近日，来自谷歌斯坦福和布朗大学的研究人员们提出了一种称为”Snorkel Drybell”的新方法，基于弱监督学习的方法可以再很大程度上缓解大规模工业数据集生成的问题，利用已有的知识迅速的标注出大规模的数据。

研究人员基于开源框架Snorkel开发了这套实验标注系统，并在实验中发现这套系统可以获得与手工标记成千上万个数据点相同的效果，并揭示了如何为现代机器学习系统创造训练数据和核心原理。值得一提的是，Snorkel是一套专门基于弱监督创建训练数据的框架，它能基于内部模型、本体、规则知识图谱等各种形式的知识为机器学习模型创建大规模的数据。

与传统手工标注不同，新系统创造出为数据打标的标注函数，程序化地完成数据标记工作。研究人员主要探索了这些标注函数是如何捕获工程师的经验，如何基于现有资源启发式的进行弱监督学习的。

举个例子，如果我们想识别出与名人相关的内容，一方面可以使用现有的命名实体识别（NER）模型来标注出不包含与名人无关的人的内容来实现这一任务。这就巧妙地将已有的知识资源与简单的逻辑结合起来，为新的模型创造了训练数据。更重要的是这一标注函数将在大多数情况下返回None（与名人相关的相对较少）,这就意味着在整个数据集中只有少量数据需要打标，我们可以利用这些数据标签来训练对于另一任务具有泛化性的新模型。

实验中的标注函数，将现有知识与简单的逻辑代码相结合启发式的进行数据标注。

自动化的程序标注显然比人工方法要高效和灵活，但质量却无法与手工标注媲美。标注函数常常会出现标签重叠和不一致的情况。这主要是用于标注函数的精度未知、与已有数据的关联方式也存在不确定性。为了解决这一问题，研究人员利用生成模型来对标记函数的精度和相关性进行可溯源的自动估计，在无需基准训练数据的情况下将输出重新赋权并为每一个数据点合成单一概率标签。此外还可以基于协方差观察标记函数之间的一致性，并学习出标记函数精度和相关性的参数，更好的解释标注的输出情况。

基于多源知识的弱监督学习

在研究Snorkel Drybell的过程中，研究人员使用了网络内容分类、是否提及特定产品以及实时事件的检测等生产任务及数据来进行实验。基于新的框架，可以充分综合各种信息源和已有资源：

启发和规则：例如特定领域作者的规则

主题模型、标记器和分类器：例如目标或相关领域的机器学习模型

统计汇总：例如目标领域的相关指标

知识或实体图谱：例如目标领域的数据库

在Snorkel DryBell中，为了训练模型对对Web数据进行内容或事件分类。用户无需手工标注，而是编程组织已有资源并自动加权生成新数据集。

研究人员利用MapReduce中的模板来实现资源的组织和数据标签生成，但结果却不尽如人意。得到的数据标签噪声很大，要么与其他标签冲突，要么对于目标任务粒度太大。为了解决这一问题研究人员在自动数据清洗和整合上又进行了深入的研究。

对准确度建模以结合&重用现有资源

为了处理标签中的噪声，需要将标记函数的输出基于置信度加权整合为单一的数据点标签。但最大的难点在于没有基准数据。所以研究人员引入了生成模型技术，基于无标记数据学习出每一个标记函数的精度。通过标记函数输出的一致性矩阵并综合已知的相关性结构来进行学习。在Snorkel DryBell研究人员还实现了一套快速无采样的建模方法，在tensorflow中处理web级别的数据。通过对标记函数的输出进行组合与建模，在Snorkel DryBell中实现了高质量的数据标记。事实上，在手工标记的训练数据可用于比较的两个应用中，Snorkel DryBell打标的数据分别与12,000和80,000个人工标记数据点在同一模型的训练中得到了相同的预测精度。

将非服务知识转移到可服务模型中

在很多情况下可用于生产的服务特征与非服务特征之间也存在重要区别，非服务特征在生产中使用面临着速度和成本的问题。但非服务特征中可能具有非常丰富的信号，但问题在于如何使用这些信号来进行训练或辅助服务模型在生成中进行部署呢？

用户可以自行编写标签函数，利用在生产中无法使用的特征历来组织知识资源（a）例如在生产中使用太慢或太昂贵的聚合统计，内部模型或知识图来训练可服务的生产模型，利用如便宜，实时的网络信号来进行服务

在Snorkel DryBell中，用户可以自行编写标签函数来组织已有的知识资源，并利用输出的数据来训练具有不同的可服务特征的新模型。这种特征交叉迁移将基准数据上的表现平均提高了52%。更重要的是，这种方法将缓慢（昂贵的模型或者聚合统计）、私密（实体或知识图谱）或者其他不适合部署的特征充分利用起来，并训练了基于迅速和便捷特征的新模型。这种简单但强大的方式可以被视为一种全新的迁移学习方法，在不同特征集上的知识迁移代替了在不同数据集间的模型迁移，具有广泛的应用潜力！

展望

研究人员将在未来的工作中将其他形式的知识应用于弱监督标签生成中，并探索Snorkel DryBell在信息复用和跨域知识共享中的应用。

打开APP阅读更多精彩内容