电子说
一、大数据定义
大数据尚未形成统一的定义,主流的定义包括三种:
(1)高德纳咨询公司(Gartner Group)对大数据的定义:大数据又可被称为巨量资料,是指需要新处理模式才能具有更强的决策力、洞察发现力、流程优化能力的海量、高增长率、多样化的信息资产。
(2)维克托·迈尔·舍恩伯格和肯尼斯·库克耶编写的《大数据时代》对大数据的定义:相较于随机分析法中的抽样调查数据,大数据指所有数据(含个人理解)。
(3)著云台(根据百度百科:一家中国云服务企业)的分析师团队对大数据的定义:通常形容一个公司创造的大量非结构化数据和半结构化数据,此类数据在下载至关系型数据库用于分析时会花费较多时间和金钱。
图片来源:学堂在线《大数据导论》
二、大数据的特点
大数据的特点也被称为大数据的4个“V”,具体如下: (1)数据量大(Volume),集中存储和集中计算已无法处理其数据量。 数据量大举例:tumblr(全球最大轻博客网站)每日产出9500万条信息,Facebook每日产出25TB日志数据,YouTube每日新增视频数据量168TB。 (2)数据种类和来源多样(Variety)。大数据的数据种类包括:结构化和非结构化数据。非结构化数据占比为80%,且非结构化数据的数据量以63%的年增长率增长(非结构化数据没有统一的数据处理技术)。大数据的数据来源包括:日志、图片、视频、文档、地理位置等。 (3)需要较快的分析处理速度(Velocity)。因为大数据产生速度快,所以也需要较快的分析处理速度。 (4)价值密度较低,但商业价值高(Value)。因为大数据数据量大,所以价值密度相对较低。但通过大数据分析,可以为企业创造高的价值。
三、大数据平台
目前,大数据主流技术平台是Hadoop。Hadoop被公认为大数据标准开源软件。Hadoop创立于2002年,创始人是Doug Cutting,Hadoop名称来源于Doug Cutting儿子的一头黄色大象玩具。 Hadoop的发展历程如图一所示。Hadoop项目于2006年2月被单独立项(根据百度百科:此前为Apache Lucene的子项目之一),2008年打破1TB数据排序纪录,2017年Hadoop3.0版本发布。
图片来源:学堂在线《大数据导论》 Hadoop的主流版本包括:Apache Hadoop、CDH。
(1)Apache Hadoop Apache Hadoop的优点包括: 1)完全开源免费。 2)社区活跃。 3)文档资料详实。 Apache Hadoop的缺点包括: 1)版本管理比较混乱。 2)选择生态组件时需要考虑兼容性问题。 3)集群的部署安装配置复杂,集群运维复杂。
(2)CDH CDH由CLOUDERA维护。
CDH的优点包括: 1)基于Apache协议,100%开源。 2)版本管理清晰,相比于Apache Hadoop在兼容性、安全性、稳定性方面更优。 3)提供了部署、安装、配置工具,大大提高了集群部署的效率。 4)提供了管理、监控、诊断、配置修改的工具,管理配置方便。 CDH的缺点是设计厂商锁定问题。如果某公司选用CDH,当公司需要改用其他平台的服务时,可能对该公司生产环境产生较大影响,即该公司被CDH厂商锁定。
编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !