电子说
数据采集(DAQ),是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风,都是数据采集工具。
被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对面状连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量(或包括物理量,如灰度)数据。
在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。首先,分布式控制应用场合中的智能数据采集系统在国内外已经取得了长足的发展。其次,总线兼容型数据采集插件的数量不断增大,与个人计算机兼容的数据采集系统的数量也在增加。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。
现在谈论大数据已经没有新意了,形形色色的产品、平台和公司都贴满大数据标签,但大数据却并没有掀起预期飓风,甚至还被冠以“伪命题”污名。
本末倒置,数据采集才是大数据产业的基石。都在说大数据应用、大数据价值挖掘,却不想,没有数据何来应用、价值一说。就好比不开采石油,一味想得到汽油。当然,石油开采并不容易,各行各业包括政府部门的信息化建设都是封闭式进行,海量数据被封在不同软件系统,数据源多种多样,数据量大、更新快。
大数据时代最不缺的就是数据。但面对数据资源,如何开采?用什么工具开采?如何以最低成本的开采?
今天就和大家讨论3种软件系统的数据采集方法,重点关注实现过程与各自的优缺点。
一、软件接口方式
各个软件厂商提供数据接口,实现数据采集汇聚。
实现过程:
· 协调多方软件厂商工程师到场,了解所有系统业务流程以及数据库相关的表结构设计等,细节推敲,确定可行性方案;
· 编码
· 测试、调试阶段
· 交付使用
接口对接方式的数据可靠性与价值较高,一般不存在数据重复的情况;数据通过接口实时传输,满足数据实时性的要求。
接口对接方式的缺点是接口开发费用高;协调各个软件厂商,协调难度大、投入人力大;扩展性不高,如:由于业务需要各软件系统开发出新的业务模块,其和大数据平台之间的数据接口也需做相应修改和变动,甚至要推翻以前的所有数据接口编码,工作量大、耗时长。
二、开放数据库方式
实现数据的采集汇聚,开放数据库是最直接的一种方式。
两个系统分别有各自的数据库,同类型的数据库之间是比较方便的:
1. 如果两个数据库在同一个服务器上,只要用户名设置的没有问题,就可以直接相互访问,需要在from后将其数据库名称及表的架构所有者带上即可。select * from DATABASE1.dbo.table1
2. 如果两个系统的数据库不在一个服务器上,建议采用链接服务器的形式处理,或者使用openset和opendatasource的方式,这个需要对数据库的访问进行外围服务器的配置。
而不同类型的数据库之间的连接就比较麻烦,需要做很多设置才能生效,这里不做详细说明。
开放数据库方式可以直接从目标数据库中获取需要的数据,准确性高,实时性也能得到保证,是最直接、便捷的一种方式。
但开放数据库方式也需要协调各个软件厂商开放数据库,难度大;一个平台如果同时连接多个软件厂商的数据库,并实时获取数据,这对平台性能也是巨大挑战。不过,出于安全性考虑,软件厂商一般不会开放自己的数据库。
三、基于底层数据交换的数据直接采集方式
通过获取软件系统的底层数据交换、软件客户端和数据库之间的网络流量包,基于底层IO请求与网络分析等技术,采集目标软件产生的所有数据,将数据转换与重新结构化,输出到新的数据库,供软件系统调用。
技术特点如下:
1. 无需原软件厂商配合;
2. 实时数据采集,数据端到端的响应速度达秒级;
3. 兼容性强,可采集汇聚Windows平台各种软件系统数据;
4. 输出结构化数据,作为数据挖掘、大数据分析应用的基础;
5. 自动建立数据间关联,实施周期短、简单高效;
6. 支持自动导入历史数据,通过I/O人工智能自动将数据写入目标软件;
7. 配置简单、实施周期短。
基于底层数据交换的数据直接采集方式,摆脱对软件厂商的依赖,不需要软件厂商配合,不仅需要投入大量的时间、精力与资金,不用担心系统开发团队解体、源代码丢失等原因导致系统数据采集成死局。
直接从各式各样的软件系统中开采数据,源源不断获取精准、实时的数据,自动建立数据关联,输出利用率极高的结构化数据,让不同系统的数据源有序、安全、可控的联动流通,提供决策支持、提高运营效率、产生经济价值。
全部0条评论
快来发表一下你的评论吧 !