大数据怎么玩？数据存储这个关键技术要学好

电子设计 2017-11-27 5952

描述

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，以便管理和调用。由于从多渠道获得的原始数据常常缺乏一致性，这导致标准处理和存储技术失去可行性。并且数据不断增长造成单机系统的性能不断下降，即使不断提升硬件配置也难以跟上数据增长的速度。

大数据存储和管理发展过程中出现了如下几类大数据存储和管理数据库系统：分布式文件存储、NoSQL数据库、NewSQL数据库。

一、分布式文件存储

分布式文件存储的特点之一是为了解决复杂问题而将大任务分解为多项小任务，通过让多个处理器或多个计算机节点并行计算来提高解决问题的效率。

分布式文件系统能够支持多台主机通过网络同时访问共享文件和存储目录，大部分采用了关系数据模型并且支持SQL语句查询。为了能够并行执行SQL的查询操作，系统中采用了两个关键技术：关系表的水平划分和SQL查询的分区执行。

水平划分的主要思想是根据某种策略将关系表中的元组分布到集群中的不同节点上，由于这些节点上的表结构是一致的，因此便可以对元组并行处理。在分区存储关系表中处理SQL查询需要使用基于分区的执行策略。

分布式文件系统可通过多个节点并行执行数据库任务，提高整个数据库系统的性能和可用性。其主要缺点为缺乏较好的弹性，并且容错性较差。

二、NoSQL数据库

传统关系型数据库在数据密集型应用方面显得力不从心，主要表现在灵活性差、扩展性差、性能差等方面。而NoSQL摒弃了传统关系型数据库管理系统的设计思想，采用了不同的解决方案来满足扩展性方面的需求。由于它没有固定的数据模式并且可以水平扩展，因而能够很好地应对海量数据的挑战。相对于关系型数据库而言，NoSQL最大的不同是不使用SQL作为查询语言。NoSQL数据库主要优势有：避免不必要的复杂性、高吞吐量、高水平扩展能力和低端硬件集群、避免了昂贵的对象-关系映射。

三、NewSQL数据库

NewSQL数据库采用了不同的设计，它取消了耗费资源的缓冲池，摒弃了单线程服务的锁机制，通过使用冗余机器来实现复制和故障恢复，取代原有的昂贵的恢复操作。这种可扩展、高性能的SQL数据库被称为NewSQL，其中“New”用来表明与传统关系型数据库系统的区别。NewSQL主要包括两类系统：1. 拥有关系型数据库产品和服务，并将关系模型的好处带到分布式架构上；2. 提高关系数据库的性能，使之达到不用考虑水平扩展问题的程度。

NewSQL能够提供SQL数据库的质量保证，也能提供NoSQL数据库的可扩展性。

打开APP阅读更多精彩内容