不可否认,大数据已经在 21 世纪掀起一场惊涛骇浪。很多人怀揣着成为数据科学家的梦想进入数据科学世界,上期我们提到了数据分析。其实,数据分析是一个数据消费的过程,在数据消费之前的数据准备工作,叫做数据工程。
数据是由许多数据源产生的,像生产执行系统MES,各种辅助生产的应用系统,产线的设备。这些数据源产生的数据我们把它叫做原始数据。
为了让业务决策者使用这些数据,需要对其进行采集,清理,转换,存储,组合,聚合,处理过后的数据才是有价值的数据。
设计和实现这些数据处理的过程叫做数据工程。
数据的采集,清洗,转换处理,是整个数据工程的关键,通常我们可以用ETL(Extract-Transform-Load)技术来实现。
随着工厂的发展,各生产线,各部门都会搭建自己的应用系统方便开展自己的业务,随着数字化建设的不断深入,由于业务系统之间各自为政,相互独立造成的数据孤岛现象尤为普遍,业务不集成,数据不共享,给工厂进行数据的报表开发,数据分析,数据挖掘带来了巨大困难。
通过ETL可以连接数据孤岛,将分离的业务数据整合在一起,统一的采集,处理,共享。
数据仓库是工厂的数据中心,所有系统产生的原始数据都流向数据仓库,数据的存储,标准化,组合都在数据仓库中完成,最终把有价值的数据提供给各大数据应用系统。
可以说数据仓库不产生数据,也不消费数据,只是数据的搬运工。
总的来说,如果把数据消费过程比作一盘美味的酸辣土豆丝,那数据工程就是个做菜的过程,土豆、葱姜蒜、干红辣椒、盐、糖、醋这些原材料就是原始数据;去菜场买菜就好比数据采集;数据清理就是洗土豆,削皮;数据转换就好比土豆切成丝,姜葱蒜切末,辣椒切断。然后准备工作做好以后就开始炒菜,放入葱姜蒜末,辣椒段和土豆丝,炒菜过程中会加入适量的醋,盐,糖调味,这就好比在对数据做组合,聚合处理。而这一切都是发生在数据仓库这个大厨房。最后呈现就是一盘美味的酸辣土豆丝啦!
据统计,一个数据分析的项目接近80%的时间会花在准备数据上,这就是数据工程的意义所在。
工业大数据时代,在制造业产品的全生命周期从市场规划、设计、制造、销售、维护等过程都会产生大量的结构化和非结构化数据。
而智能工厂利用物联网、人工智能、云计算、大数据技术提高服务和生产,其本质是实现了人、机器、设备、IT系统的通过数据互联互通。
产生的数据越来越多,数据采集和集成的需求也越来越多,负责数据采集和集成的数据工程在向智能工厂迈进的数字化转型中扮演着举足轻重的角色。
全部0条评论
快来发表一下你的评论吧 !