国际纸业:为机器学习魔兽馈送数据

国际纸业流程信息 发表于 2019-09-20 11:06:45 收藏 已收藏
赞(0) •  评论(0

国际纸业:为机器学习魔兽馈送数据

国际纸业流程信息 发表于 2019-09-20 11:06:45
+关注

国际纸业公司拥有 55,000 名员工,年销售额超过 210 亿美元,是世界上最大的纸浆和造纸公司。大规模的生产也会带来大规模的数据:该公司目前跟踪着全球 37 家工厂,近 200 万个活跃的数据点。国际纸业公司的 PI System会产生大量的数据,可以从这些生产数据中挖掘业务洞察力。通过使用 PI System工具深入研究如何收集和组织数据,工程师们能够将数据处理时间缩短 80% 以上,从而使公司新推出的机器学习计划能够更快执行。

国际纸业训练机器算法,作为其“未来之战”现代化计划的一部分

国际纸业公司的工程师致力于高效地处理他们正在使用和生成的海量数据。“我们的工程师们需要花费他们 80% 到 90%的时间来检索和清理数据,”国际纸业公司的化学工程师和流程信息经理Rick Smith 在 OSIsoft 的 PI World 2018 旧金山大会上这样说。“我们支付工资让他们进行决策并改进我们的流程。我们需要以适当的频率向工程师提供正确的数据,以便于他们工作。”

几年前,公司在减少数据检索时间方面做了一些努力。使用 PI OLEDB 工具后,工程师可以将 PI System 数据存档视为关系数据库。通过运行 SQL 查询可以将提取出来的数据自动填充到 Microsoft Excel 电子表格中,而无需在 Excel 内运行耗时的计算。采用这种方法后,国际纸业能够将审计中经常使用的数据检索过程从 3-12小时缩短到 15-45 分钟。

这是一个良好的开端,但后面还有更大的挑战。2017 年,国际纸业发起了一个以数据和机器学习为核心的试点项目,作为其“未来之战”现代化计划的一部分。为了训练机器算法,工程师需要同时在数千个标签上提取几年的历史数据并将这些数据输入机器学习引擎。

为了获取数据检索过程所需的时间值,Smith提出了一个他称之为“年标签”的时间单位:即从单个 PI 数据标签中检索一年的信息所需的时间。因为不同的标签收集数据的间隔不同,所以各个标签的“年标签”值不尽相同,有些甚至差异极大。

Smith 有关检索数据所需时间的初步估计发人深省。使用 10,000 个数据标签一到三年的数据,数据采集间隔为一分钟,会产生大约 160 亿行数据,整个过程需要耗时数月。

“对于我们的数据标签,如果所有标签都是上面这种情形,那么读取三年的数据,将需要100 到 200 天的时间来检索数据。我不了解其他公司的情况,但我们的副总裁可不想等待200 天才开始这个项目,” Smith 说。

国际纸业创建了另外的数据标签,每隔一分钟而不是每隔 1-2 秒写一次数据,从而简化了大数据机器学习的数据提取过程。

优秀的数据管理员的价值

使用 PI System 工具,Smith 开始研究数据,探索如何能减少不必要的存储与数据处理。他发现,在一家造纸厂,不到百分之一的数据标签占据了存档空间的近 37%。对于不同类型的分析,可能需要以不同的频率采集数据。Smith 采用 Asset framework(PI Server 的一部分)为采集频率密集的标签同时设置了较低的采集频率,以较长的间隔来收集相同的数据,在确保数据存档丰富性的同时,实现更快的检索速度。

对于某些数据标签,密集的数据收集频率对于存档很重要,但并非所有分析都需要细粒度的数据。在对一组数据标签进行分析时,Smith发现,与一秒钟间隔的数据相比,一分钟间隔的数据其数据读取时间可以减少 85%。

对数据进行适当的管理和组织,也会使数据检索时间在原来长度的基础上大幅减少。在一项分析中,Smith 使用了 50 个数据标签并在Asset framework 为它们构建了一个结构,这一举措将读取一年数据的时间从 15 分钟以上缩短到 5 分钟以内。通过使用数据平均值而不是工厂仪表上传感器的原始值,将另一项分析的时间从 14 小时缩短到 40 秒。

仔细研究公司的数据如何生成、存储和处理,这一工作平淡无奇,但它所产生的结果却令人瞩目。

“所有系统都需要管理者,”Smith 说。“每个人都想成为架构师。但我们更需要脚踏实地的数据管理员。”

声明:本文由入驻电子说专栏的作者撰写或者网上转载,观点仅代表作者本人,不代表电子发烧友网立场。如有侵权或者其他问题,请联系举报。侵权投诉

收藏

相关话题

评论(0)

加载更多评论

分享到

QQ空间 QQ好友 微博
取消