波音喷气发动机每运行 30 分钟,就会产生 10 TB 的数据。那是 1 万亿字节,或相当于美国国会图书馆整个印刷馆藏的数字化等价物。将其乘以每天在美国上空推动超过 87,000 次航班的喷气发动机数量,您就会获得大量数据。
尽管一些人猜测大数据不会转化为分析疗法,但它仍然与物联网 (IoT) 密不可分。如果思科等公司的预测是正确的,那么到 2020 年,我们将有大约 500 亿个支持互联网的“事物”不断地啁啾,虽然它们可能不会都在喷气发动机剪辑上生成数据,但这绝对构成了数据海啸。
那么,我们将如何处理所有这些数据?收获的信息必须在某种程度上具有价值,否则它一开始就不会被收获。另一方面,并非所有数据都是平等的。收集到的绝大多数数据可能会被存档和遗忘,直到偶尔报告需要它,访问一次或两次,然后再次被遗忘。根据 Enterprise Strategy Group 的研究,这种“不经常访问”的信息(也称为第 3 层或“冷”数据)占记录数据的 80%。而且,尽管这些年来内存的平均成本急剧下降,但在大数据规模上,每 GB 几美分的成本可以很快加起来。
这种信息过载的明显答案是冷数据存储替代方案,它们比用于定期访问的数据更便宜且容量更大。因此,公司通常选择以下两种解决方案之一:历史悠久的磁带库,或者最近的云。
磁带库已经使用了几十年,非常适合以极低的成本存储大量数据。它们也可以被认为是“绿色的”,因为磁带驱动器仅在使用时旋转(这可以节省电力),并且位于内部可以相对快速地访问冷数据。然而,磁带库也有一些缺点,包括大中型存储系统的前期费用高昂、远程访问困难、磁带退化的可能性以及在单个现场位置维护档案的漏洞。而不是“数据海啸”想想“数据”和“海啸”)。
公司探索云存储的可能性,通过提供无限的存储空间、低成本以及防止盗窃、自然灾害等的远程容量,弥补了磁带库的一些疑虑。然而,云解决方案的主要特点是检索数据通常非常耗时,并且可能会变得昂贵,具体取决于检索的数据量。例如,Amazon Glacier 之类的服务至少需要 3-5 小时来检索数据集(可在 24 小时内下载),如果在给定的数据中检索到超过 5% 的数据,则按千兆字节收费月。
两者的交叉点似乎会有所改进,并包含优化访问的硬件和软件元素,同时确保每 GB 存储的成本尽可能低。
冷藏:冰上的大数据
软件定义存储 (SDS) 是一个新术语,但从技术角度来看,它类似于软件定义网络 (SDN),因为硬件逻辑被抽象为管理存储基础设施的软件层。从本质上讲,这意味着可以虚拟化存储功能或服务(如重复数据删除、复制、快照和精简配置),从而实现在商用硬件上运行的融合存储架构。因此,可以实施具有成本效益的存储策略,将磁带库的可访问性和效率与云的可扩展性和远程功能相结合。
例如,由 Storiant 提供支持的 RGS Cold Storage 是针对第 3 层数据的本地存储解决方案,它基于 Avnet, Inc. 的业务部门 RGS 的现成硬件。机柜级设备与 60 个提供 PB 级容量的 HDD 托架完全集成,并利用基于 OpenZFS 的 Storiant 软件(以前称为 SageCloud)与私有云接口。Storiant 数据管理软件还提高了访问性能,将处于停滞状态的数据的检索时间缩短至 30 秒,同时允许 HDD 在不使用时减速以显着降低功耗。可扩展的 RGS 冷存储架构每月每 GB 存储 0.01 美元,针对大多数大数据部署进行了成本优化。
虽然 SDS 等存储管理技术有助于为有价值的业务分析奠定基础,但它们还确保财务和计算资源可用于定期执行的“第 1 层”数据。在一个过多的信息实际上会变成一件坏事的环境中,将其中的一些信息保持在深度冻结状态是很重要的。
审核编辑:郭婷
全部0条评论
快来发表一下你的评论吧 !