在以数据为中心的信息时代,存储已成为IT基础设施的核心之一。数据存储已经成为继互联网热潮之后的又一次技术浪潮,它将网络带入了以数据为中心的时代。
由于近年来C/S计算模型的广泛采用,服务器都带有自己的存储系统,信息分散到各个服务器上,形成了所谓的“信息孤岛”,不利于信息整合与数据共享。而网络存储就是一种利于信息整合与数据共享,且易于管理的、安全的新型存储结构和技术。目前,网络存储已经成为一种新的存储技术,本文将从体系结构的角度简述目前的存储系统。
直接连接存储DAS
直接连接存储DAS(Direct Attached Storage)是对SCSI总线的进一步发展。它对外利用SCSI总线通道和多个主机连接,解决了SCSI卡只能连接到一个主机上的缺陷。对内利用SCSI总线通道或FC通道、IDE接口连接多个磁盘,并实现RAID技术,形成一个磁盘阵列,从而解决了数据容错、大存储空间的问题。
DAS是以服务器为中心的存储体系结构,难以满足现代存储应用大容量、高可靠、高可用、高性能、动态可扩展、易维护和开放性等多方面的需求。解决这一问题的关键是将访问模式从以服务器为中心转化为以数据和网络为中心,实现扩展容量、增加性能和延伸距离,尤其是实现多个主机数据的共享,这推动了存储与计算的分离,即网络存储的发展。
网络附属存储NAS
NAS(附网存储系统)系统是用一个装有优化的文件系统和瘦操作系统的专用数据存储服务器,提供跨平台的文件共享功能。NAS产品与客户之间的通讯采用NFS(Network File System)协议、CIFS(Common Internet File System)协议,这些协议运行在IP之上。。
尽管NAS集成了系统、存储和网络技术,具有扩展性强、使用与管理简单、跨平台文件共享、性能优化等特点。然而,NAS系统也有其潜在的局限性。首先是它受限的数据库支持,NAS文件服务器不支持需大量依赖于数据库处理结果的应用(块级应用)。其次是缺乏灵活性,它是一种专用设备。最后,NAS备份与恢复的实现相当困难。
存储区域网SAN
SAN(存储区域网)是通过专用高速网将一个或多个网络存储设备(如磁盘阵列RAID)和服务器连接起来的专用存储系统。
SAN以数据存储为中心,采用可伸缩的网络拓扑结构,提供SAN内部任意节点之间的多路可选择的数据交换,并且将数据存储管理集中在相对独立的存储区域网内,实现最大限度的数据共享和数据优化管理,以及系统的无缝扩充。正是由于光纤通道技术的发展,使得SAN得以支持远距离通信、易于扩展、能够解决网络数据的存储备份、高可用性、灾难恢复等有关问题,它可以提供高性能数据管道和共享的集中管理的存储设备。因此采用网络和通道技术相互融合的光纤通道接口的SAN将LAN上的存储转换到主要由存储设备组成的专用网络上,使得数据的访问、备份和恢复不影响LAN的性能,在大量数据访问时,不会大幅度降低网络性能。
SAN主要用于存储量大的工作环境,并且SAN的适用性和通用性较差,在系统的安装和升级方面效率不高,且由于SAN使用专用网络(一般为光纤网络),相应的设备价格昂贵,总体实现费用较高,局限于大中型应用。
NAS和SAN技术都体现了数据存储从传统的服务器中独立出来的思想,它们是网络存储领域中的两个发展方向。随着NAS和SAN之间的界限越来越模糊,其中更重要的区别可能就是在NAS/SAN混合系统中所采用的协议了:IP、光纤通道,或者iSCSI等。
IP存储
传统的SAN一般采用光纤通道技术,其成本高,距离受限制,因此基于IP的存储正成为一个新的热点,主要有FCIP(Fibre Channel over IP)、iFCP(Internet Fibre Channel Protocol)、mFCP(Metro Fibre Channel Protocol)、iSCSI(Internet SCSI)等技术。
上述协议有一个非常重要的共同点:都能充当SCSI命令集的传输机制。通过IP存储介质与存储设备通信的主机仍能表达SCSI的含意。而iSCSI则是从主机到存储设备的整个传输链路就是一条IP链路,没有采用光纤通道,基于主机的应用通过IP与网络存储设备通信。iSCSI保持了SCSI命令集的原状,同时用IP取代了传输协议。但由于iSCSI通过映射至IP来保留SCSI命令集,存在延时问题,已有专门的iSCSI芯片组把转换代码部署在硬件当中。IP-SAN的优势在于:容易扩展成超大规模的存储网络;不必受光纤通道SAN的距离限制,连接在IP网络上的服务器都能享用网络存储服务;连接灵活多样,廉价成熟的网络架构成本,使得高端也能达到Gbps速率,有较高的性能价格比。
集群存储
由于目前一些存储应用受容量可扩展性、性能可扩展性、可用性、可管理性的挑战,“催生”了许多存储集群系统的产生。集群存储是将每个存储设备作为一个存储节点,通过高速互联网络连接起来,将数据分散开存储在多***立的设备上,这些设备可以独立运作,相互之间又可以合作。每个I/O节点不仅可以访问本节点的存储空间,还可以访问其他节点的存储空间。所有存储节点的空间以一个虚拟磁盘的方式提供给客户端用户。组成集群存储可以是块级别的SAN集群、文件级别的NAS集群和并行文件系统的集群,它们的访问、特征与适用环境参见表1。
集群存储有效地提升了存储设备的容量可扩展性、性能稳定性及系统可管理性。集群存储非常适合那些持续增长的所有规模的不同环境,实现即时供应(Just-in-time)存储,避免破坏性升级和增加管理的复杂性。在大型数据中心或高性能计算中心的集群存储解决方案,具有高性价比,简单、易于维护,高可靠性/可用性,具有非常高的整合带宽等优点。集群存储最典型系统是Google体系结构,它是大量机器内硬盘的组合,含899个机架(每架80台PC,每台PC有2个硬盘),共79,112台PC机,有158,224个硬盘, 总容量为6180 TB。
对等(P2P)存储
对等结构(P2P)从用户的使用方式来看,系统中每个用户既向其他用户提供资源,也从其他用户那里获取资源。从体系结构来看,无中心结构,结点之间对等,通过互相合作来完成用户任务。P2P结构的优点表现在:没有中心结点,不易形成系统瓶颈、不易受攻击,可扩展性好,自组织性好。
用P2P的方式在广域网中构建大规模分布式存储系统,将很多机器用对等的方式组织起来共同为用户提供超大容量的数据存储服务,存储结点来自于存储服务方,用户使用存储空间并付费,用户还通过该平台自主寻找其他结点进行数据备份和存储空间交换。
P2P存储与SAN的应用特点不同。前者主要强调可用性,而SAN主要面向的是高性能;P2P存储易于维护、可扩展好、自配置功能强,特别是P2P存储可以大量加盟的PC机和服务器中的存储器来组合成存储系统,提供高带宽的视频服务和其他共享服务。
集群存储与P2P存储都是分布式存储。前者多在大型数据中心或高性能计算中心使用,后者是构建更大规模的分布式存储系统,可以跨多个大型数据中心或高性能计算中心使用。
网格存储
所有的存储、服务器和网络资源都被虚拟为一个资源池,并将其视作共享资源,这个资源池就是存储网格。存储网格的关键是虚拟化与统一性管理问题。
存储网格既可应用于SAN环境,又可应用于NAS环境,它提供快速简单的对于容量、性能、服务质量和/或连接协议的可升级性,可对公司所有数据进行统一查看和管理,远远超出当前有限的虚拟化实现途径,还可优化分布式企业远程数据访问的性能。存储网格架构可实现数据库和企业之间更紧密的应用整合,提供更高的数据保护,并可基于有关规定更简单地管理数据资源。这些优势极大降低了用户在购买、扩容和管理时的费用。
面向对象的存储
对象存储模型综合了NAS和SAN结构的特点,存储对象具有文件和块二者的优点:像数据块一样在存储设备上被直接访问,通过一个对象接口,像文件一样,在不同操作系统平台上实现数据共享。在SAN中,定位逻辑和文件系统都位于主机中。而在面向对象的存储中,存储空间不再需要运行在主机上的文件系统管理,而由存储系统自己管理和分配。
一个存储对象是关于一个存储设备的逻辑字节集合,它有存储方法、数据属性和存储安全策略等。因此,对象存储系统在基于文件级的数据布局、服务质量的灵活性和可管理等方面有很大改善。另外,基于对象存储的最直接效果是将空间管理从存储应用中剥离,如图2所示,存储设备具有自管理特性,包括重新组织数据来提高性能、调用规则的备份和失败恢复等。
未来存储设备的特性可能包括自配置、自保护、自优化、自恢复和自管理。将块接口用对象来代替是一个发展方向。目前,面向对象的存储仍然处在标准制定之中,还没有得到广泛的接受。
内容寻址存储CAS
内容寻址存储(Content Addressed Storage,CAS)是针对固定内容存储需求的网络存储技术。CAS具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。CAS、SAN和NAS的区别参见表2。CAS存储技术的代表性产品是EMC公司的Centera 系统,目前还具有非常多的局限性。
数据库只针对的是结构化数据,而大量非结构化的数据管理有更大的存储需求,而内容管理的对象是以各类非结构化数据为主的数字内容。CAS技术的出现使非结构化数据管理(包括企业的各种文档、报表、账单、网页、图片、传真、扫描影像,以及大量的多媒体音频、视频信息等等的归档和查询)成为存储业新的热点。未来需要一种新的基于内容管理的存储系统平台,它扩展了最新的对象存储体系结构,支持对象仓储和联邦数据库技术,支持关系和 XML作为主要数据模型,并紧密地集成了内容管理服务、工作流、消息传递、分析和其他企业应用程序服务。
基于IB的存储
InfiniBand(IB)是针对处理器和智能I/O设备之间数据流而提出的一种新体系结构,用于在服务器中取代PCI总线。采用IB技术支持多处理器集群,将允许服务器提供更高的带宽和可扩展能力,并增强了存储设备扩充的灵活性,并用于支持远程I/O和远程存储器,如图3所示。IB作为一种能够为系统与存储之间提供低延迟和高带宽的连接解决方案,已经为一些用户所接受,预期基于IB的存储将在存储领域会占有一席之地。
全部0条评论
快来发表一下你的评论吧 !