如何定义大数据,大数据的特点及主流平台

电子说

1.3w人已加入

描述

一、大数据定义

大数据尚未形成统一的定义,主流的定义包括三种:

(1)高德纳咨询公司(Gartner Group)对大数据的定义:大数据又可被称为巨量资料,是指需要新处理模式才能具有更强的决策力、洞察发现力、流程优化能力的海量、高增长率、多样化的信息资产。

(2)维克托·迈尔·舍恩伯格和肯尼斯·库克耶编写的《大数据时代》对大数据的定义:相较于随机分析法中的抽样调查数据,大数据指所有数据(含个人理解)。

(3)著云台(根据百度百科:一家中国云服务企业)的分析师团队对大数据的定义:通常形容一个公司创造的大量非结构化数据和半结构化数据,此类数据在下载至关系型数据库用于分析时会花费较多时间和金钱。

大数据

图片来源:学堂在线《大数据导论》    

二、大数据的特点

大数据的特点也被称为大数据的4个“V”,具体如下:   (1)数据量大(Volume),集中存储和集中计算已无法处理其数据量。 数据量大举例:tumblr(全球最大轻博客网站)每日产出9500万条信息,Facebook每日产出25TB日志数据,YouTube每日新增视频数据量168TB。   (2)数据种类和来源多样(Variety)。大数据的数据种类包括:结构化和非结构化数据。非结构化数据占比为80%,且非结构化数据的数据量以63%的年增长率增长(非结构化数据没有统一的数据处理技术)。大数据的数据来源包括:日志、图片、视频、文档、地理位置等。   (3)需要较快的分析处理速度(Velocity)。因为大数据产生速度快,所以也需要较快的分析处理速度。   (4)价值密度较低,但商业价值高(Value)。因为大数据数据量大,所以价值密度相对较低。但通过大数据分析,可以为企业创造高的价值。    

三、大数据平台

目前,大数据主流技术平台是Hadoop。Hadoop被公认为大数据标准开源软件。Hadoop创立于2002年,创始人是Doug Cutting,Hadoop名称来源于Doug Cutting儿子的一头黄色大象玩具。   Hadoop的发展历程如图一所示。Hadoop项目于2006年2月被单独立项(根据百度百科:此前为Apache Lucene的子项目之一),2008年打破1TB数据排序纪录,2017年Hadoop3.0版本发布。  

大数据

图片来源:学堂在线《大数据导论》   Hadoop的主流版本包括:Apache Hadoop、CDH。  

(1)Apache Hadoop   Apache Hadoop的优点包括: 1)完全开源免费。 2)社区活跃。 3)文档资料详实。   Apache Hadoop的缺点包括: 1)版本管理比较混乱。 2)选择生态组件时需要考虑兼容性问题。 3)集群的部署安装配置复杂,集群运维复杂。      

  (2)CDH   CDH由CLOUDERA维护。

  CDH的优点包括: 1)基于Apache协议,100%开源。 2)版本管理清晰,相比于Apache Hadoop在兼容性、安全性、稳定性方面更优。 3)提供了部署、安装、配置工具,大大提高了集群部署的效率。 4)提供了管理、监控、诊断、配置修改的工具,管理配置方便。   CDH的缺点是设计厂商锁定问题。如果某公司选用CDH,当公司需要改用其他平台的服务时,可能对该公司生产环境产生较大影响,即该公司被CDH厂商锁定。    

编辑:黄飞

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分