大致可分为数据标准与规范、数据安全、数据采集、数据存储与管理、数据分析与挖掘、数据运维及数据应用几个环节,覆盖了数据从产生到应用的整个生命周期。
(一)数据标准与规范
大数据标准体系是开展大数据应用的前提条件,没有统一的标准体系,数据共享、分析、挖掘、决策支持将无从谈起。大数据标准包括体系结构标准、数据格式与表示标准、组织管理标准、安全标准和评测标准。在标准化建设方面,参与单位主要包括中国电子技术标准化研究院、各个数据库公司、数据拥有部门以及各个行业的标准化组织。
(二)数据安全
随着海量数据的不断增加,对数据存储和访问的安全性要求越来越高,从而对数据的访问控制技术、加密保护技术以及多副本与容灾机制等提出了更高的要求。
另外,由于大数据服务器处理主要采用分布式计算方法,这必然面临着数据传输、信息交互等环节,如何在这些环节中保护数据价值不泄露、信息不丢失,保护所有站点的安全是大数据发展面对的重大挑战。
在大数据时代,传统的隐私数据内涵与外延有了巨大突破和延伸,数据的多元化与彼此的关联性进一步发展,使得对单一数据的隐私保护方法变得极其脆弱,需要针对多元数据融合的安全提出。
在数据安全环节上主要参与单位包括中国电子科技集团公司第30研究所以及奇虎 360、瑞星等杀毒软件公司。
(三)数据采集
政府部门、以 BAT 为代表的互联网企业、运营商是当前大数据的主要拥有者。除此之外,利用网络爬虫或网站公开 API 等途径对网络数据进行采集也是大数据的主要来源。
现实世界中的数据大多不完整或不一致,无法直接进行数据挖掘或挖掘结果不理想,需要对采集的数据进行填补、平滑、合并、规格化、检查一致性等数据预处理操作,并且往往需要大量的人工参与,因此数据采集和清洗成为大数据产业链的一个重要环节。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !