存储技术
(文章来源:千家网)
随着计算机技术,传感器技术以及互联网技术的发展,人类的数据总量已经达到了前所未有的规模。数据充斥着每个人的日常生活,企业每天都面临着管理数据以及使用数据的挑战。目前,存储数据的载体、数据的处理技术以及数据的使用的方式方法都在不断的演进,企业用户对数据价值的预期也不断增加。企业用户期望通过数据快速带来商业价值,同时对数据的安全,数据隐私与合规等要求越来越高。
过去的十年里,用户需求主要集中在解决高效的存储,并且能够同时处理大规模数据。通过分布式的方式把数据分散在不同的服务器上,以分而治之的方式来并发处理数据,避免网络传输带来的消耗和延迟等。Hadoop 在过去十年里解决用户需求的同时也在不断自我演进。Cloudera’s Distribution Including Apache Hadoop(CDH)作为众多 Hadoop 分支的一种,得到了企业用户广泛的认可和使用。
未来十年里,现有的数据管理使用架构与解决方案面临新的诸多挑战。例如庞大集群规模部署时间长,企业实际应用中缺乏高效数据隐私与安全管理,数据灾难恢复能力弱,多云及混合云跨云管理繁琐等。都需要在现有技术架构基础上进行延展从而来应对这些新的挑战。Cloudera 的全新 CDP 产品就是为了帮助用户应对未来的新挑战。
Cloudera 在 Hadoop 基础架构下发展出的商业版 CDH,是第一代架构的代表,主要关注在本地部署云上集中同位的存储和计算以及大型共享集群;Cloudera 认为的第二代架构,主要关注在公有云上的存储与计算解耦和多集群,例如 Amazon EMR;Cloudera 目前提出的平台方案 CDP 被认为是第三代架构,主要关注在多云以及混合云上的存储与计算解耦,多租户以及容器化的 SaaS 体验。
去年年初,Cloudera 正式完成与 Hortonwork 的合并,新公司采用 Cloudera 品牌,新数据平台将 HDP(Hortonworks 数据平台)和 CDH(Cloudera Distribution Hadoop)的功能进行结合,加入安全治理堆栈,支持百分百开源,同时支持国际主流的五大公有云平台,这意味着Cloudera 开始全面转变为一家数据云公司。在任何云上面,不管是在公有云、私有云,混合云,还是公有云上的任何一朵云,都可以来运行 Cloudera 的数据平台。
提供全数据生命周期支持,不只是提供 Hadoop 技术本身的支持,还提供在整个数据生命周期所有使用到的工具和平台,包括数据采集、IoT、数据分析、BI、数据仓库、机器学习、数据科学等。在数据安全和治理上,提出了共享的数据体验架构,实现存储层和计算层的解耦,更好的管理源数据,同时实现数据存储分离。对数据的安全、治理、血缘和审计方面,提供了单独的 SDX 工具。
Cloudera 的云数据平台软件 CDP可以为企业从数据战略上提供完整的服务,其多云和混合云的统一平台解决方案,可以实现快速部署,并灵活适用于企业各自的云使用策略,节约成本同时实现快速上线。全数据生命周期的支持可以让企业更加高效的使用数据和挖掘数据,提升企业数据价值。同时数据安全治理为分布各种云上的数据提供有效管理。因此,现在的 CDP,既能提供多云与混合云的统一平台解决方案,又可以支持企业全数据生命周期中提升数据价值,还能实现企业云上的数据安全治理。
企业在使用云的策略上,通常会根据其业务特点选择公有云或私有云,有的企业也会选择公有云 + 私有云,并构建混合云环境。Cloudera 在多云以及混合云的使用方面提出了很多新的理念和实践。
对公有云来说,原生云服务商建立了相关的对象存储标准,但私有云目前并没有对应的标准。Cloudera 通过主推 Ozone 为私有云提供未来的对象存储标准。Ozone 是 Cloudera 在 2019 年创建并引入的一个 Hadoop 子项目,是一个开源的对象存储项目。引入 Ozone 是为了能够彻底解决 HDFS 文件数量的限制的弱点。目前很多企业用户在部署大规模集群的时候,都需要使用 HDFS 联邦,而 HDFS 联邦在实际应用中也存在各种问题,并不是最佳的解决方案,随着集群规模不断的增长,局限性也日益突出。
结合 CDP 存储跟计算分离的概念,Cloudera 将 Ozone 定位为私有云的数据存储引擎。Ozone 可以被理解为私有云里面的“S3”,所有数据都是存放在Ozone 里面,而分离的计算集群都是通过源数据,网络远程处理。未来规划中,Hive、Spark、Impala 等一系列的处理引擎都会跟 Ozone 集成。
同时私有云版上跟公有云版进行映射,从而使存储的接口和计算引擎都可以在 Ozone 上实施。由此不但可以满足用户使用对象存储接口的需求,而且可以灵活的去分配计算资源,为开发带来便捷。
从不同云的使用上讲,CDP 提供公有云、Data Center和私有云版本,并提供体验相同的各种数据服务。例如流式处理、Hive 批量处理、Spark 和即时查询等,用户在私有云环境里面,可以获得跟公有云一样的体验。用户使用 CDP 在自己搭建部署的云和使用 CDP 在原生云服务商的公有云时,CDP都会提供统一的用户界面和相同的使用的方式,避免了用户重复学习,同时大大节约了运维集群的时间。
开源是软件技术创新的潮流,几乎所有最新的技术都是以开源的形式在传播和推广。同时开源会成就技术的多样化,一个百花齐放社区的文化可以持续不断的发展。Cloudera 也会借助开源强大的创新能力,不断提升对用户的服务。
Cloudera 拥有 700 多个研发工程师,其中大概 300 名左右的 committers,同时其系列产品在全球几千个大型客户经过广泛的验证,用户的问题可以得到快速解决。因此企业用户订阅 Cloudera 的企业版产品,不需要建立各自的技术团队进行平台底层研发和日常维护,让企业最大限度的节省平台成本投入。
用户订阅本质上是购买 Cloudera 所提供的服务,使用户能够释放出维护软件版本所需的大量宝贵的工程师资源,也不必担心转换平台供应商所带来的成本投入,令用户能将更多资源投入在能产生更多收入的应用和产品服务上。
Cloudera 开发了诸多开源项目,这些项目已经成为行业标准,但是没有一家公司可以成为创新唯一来源。通过投资Spark,Kbernetes和Kafka等开源项目,通过订阅服务,用户可以获得可持续发展的长期架构。通过更开放包容的商业策略,Cloudera最大限度的发挥开源社区创新的原动力,持续为客户提供更好的服务。
(责任编辑:fqj)
全部0条评论
快来发表一下你的评论吧 !