关于物联网数据科学的具体特征

SSDFans 2018-07-10 3852

描述

根据Gartner公司的数据，到2020年将会有200亿台网络连接设备投入使用，这些设备每年将产生超过500 ZB（zettabytes）数据，也就是需要5000亿个1TB硬盘才能放下，随着科技的进步，预计这一数字将继续大幅增长。对于已经进入物联网行业的70%的组织来讲，这些数据代表了其独一无二的竞争优势。这些数据可以帮助企业获得有价值的信息用于开发创新的AI应用程序，这对于企业来说是一个巨大的机会。

事实证明，物联网数据令数据科学家、机器学习工程师和企业领导者一样兴奋。从医疗保健和农业到教育和交通，蓬勃发展的物联网领域和其他领域一样是多元化的，涵盖了新信息的发现和决策控制。物联网数据科学打开了创造新数据产品的大门。本文将讨论一些关于物联网数据科学的具体特征。

数据注意事项

目前，物联网成为了新数据的重要来源之一，物联网数据或许可以被看做大数据的缩影。如果我们只看一台设备产生的数据，那么我们只需要处理很少的数据就可以了（即使这些数据也一直在变化）。但无数的分布式设备会产生连续的数据流，所以物联网会产生大量的数据。物联网设备可以收集从音频到传感器数据等各种类型的信息，并全面覆盖整体数据格式的多样化。

但是物联网数据也存在一些独一无二的特性，使其开发具有挑战性。由于采集和传输过程中出现错误往往会产生噪音，这使得构建、清理和验收数据的过程成为机器学习算法发挥的关键步骤。本质上来讲，物联网数据也是高度可变的，这是因为跨各种数据收集组件的数据流中存在巨大的不一致性，而且存在时间模式。不仅如此，数据本身的价值在很大程度上取决于底层机制，数据捕获的频率以及处理方式。即使来自特定设备的数据被认为是值得信赖的，我们仍需要考虑到即使在相似条件下不同设备的行为也可能不同。因此在收集培训数据时捕捉所有可能的情景在实践中是不可行的。

半监督学习

然而，物联网数据的一个最显著的特征在于其粗糙性：因为物联网设备通过各种复杂的传感器收集数据，所产生的数据通常非常原始。这意味着，在提取业务价值并构建强大的AI应用程序之前，主要的数据处理是必要的。实际上，将有意义的信号从噪声中分离出来并将这些非结构化数据流转化为有用的结构化数据，是构建智能物联网应用程序最重要的一步。

大量物联网应用需要使用监督机器学习，这是一类机器学习算法，需要在模型可以被训练之前标记数据。由于手动标记大型数据集是一项耗时、容易出错且价格昂贵的任务，因此机器学习专业人员通常首先转向标记为开源的数据集，或者从少量数据开始标记。然而，物联网数据的难点来自其特殊性：因为这些数据通常是独一无二的，所以不能保证现有的开源数据集随着可获得，并且工程师们有必要标记他们自己的数据。这正是高品质，适应性强的众包标签平台所能提供的帮助。

但是，归因于物联网数据的可变性，标记一个小的随机样本可能不够。考虑到这一点，这些是在算法训练中利用标记和未标记数据的半督查学习策略的完美环境。特别是主动学习是一种非常合适的方法，允许机器学习科学家获得类似的算法精确度，其中算法被允许向群众查询智能选择的训练实例的子集的标签，是标签成本的一小部分。

群体感知

在机器学习方面，物联网发展的一个非常有趣的方面是群体感知的出现。群体感知包括两种形式：自愿的，当用户自愿提供信息时，以及在没有明确干预用户的情况下自动收集数据。这是物联网数据不仅可以促进物联网应用程序的开发或改进的一种方式，而且还可以用作其他非物联网应用程序的输入。

物联网实际上允许以前所未有的方式收集非常独特的数据集。由于每个设备生成的数据通常都是人为的，因此用户可以标记或验证它。收集最接近用户位置的数据也变得可能：这正是Google要求用户拍摄他们正在用餐的餐厅的照片，或者回答关于便利设施的一些问题的目的。这是第一次可以以大数据规模收集人工生成的数据。

打开APP阅读更多精彩内容