编程语言及工具
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
提到大数据平台,就不得不提Hadoop。Hadoop有三大基因:第一,Hadoop需要sharenothing的架构,所以它可以scale-out。第二,它是一个计算存储解耦的架构,好处是计算引擎可以多样化。举个例子,批处理有Hive,交互查询有Spark,机器学习还可以有后面的tensorflow这些深度学习的框架。第三,Hadoop是近数据计算的。因为大数据平台是一个数据密集的计算场景,在这种非场景下,IO会是个瓶颈,所以把计算移动到数据所在地会提升计算的性能。
网络技术的发展是推动大数据平台发展的一个关键因素。2012年以前是一个互联网的时代,这个时期互联网公司和电信运营商,掌握着海量的数据,所以他们开始利用Hadoop平台来进行大数据的处理。那时候程序员自己写程序跑在Hadoop平台上来解决应用问题。2012年以后移动互联网的迅猛发展,这使得服务行业率先数字化。例如在金融行业,手机App让用户可以随时随地查询、转账,此时银行开始面临海量数据和高并发的冲击,就需要一个大数据平台来解决这个问题。这也就是为什么华为在2013年面向行业市场推出大数据平台产品FusionInsight。接下来物联网的发展会让更多的实体行业数字化,数据的特征更多是半结构化和非结构化,AI等更多新的搜索技术将能够帮助我们轻松地使用大数据平台。
华为FusionInsight大数据平台是集Hadoop生态发行版、大规模并行处理数据库、大数据云服务于一体的融合数据处理与服务平台,拥有端到端全生命周期的解决方案能力。除了提供包括批处理、内存计算、流计算和MPPDB在内的全方位数据处理能力外,还提供数据分析挖掘平台、数据服务平台,帮助用户实现从数据到知识,从知识到智慧的转换,进而帮助用户从海量数据中挖掘数据价值。
此外华为FusionInsight大数据平台是根据行业客户需求进行优化的解决方案。为解决用户在具体场景下的问题,提供许多创新的技术能力,举几个例子:
第一个是统一SQL。大数据技术中有很多能够利用SQL语言进行数据处理的组件,比如Hive、SparkSQL、Elk、MPPDB等,当用户对于这些组件进行业务开发时,需要对不同组件分别进行,造成很大的不便。FusionInsight提供统一SQL,对外业务界面只出现一个SQL开发管理界面,通过统一SQL的业务分发层进行业务分发,这样就简化了业务开发。同时,华为还提供了SQLonHadoop引擎Elk,这个引擎完全兼容SQL2003标准,无需修改测试脚本就可以通过TPC-DS测试,性能超过开源产品3倍。通过使用统一SQL技术,某大型保险公司实现了用大数据平台替代传统数仓,在复杂计算业务场景下,其性能提升了10-100倍。
第二个是实时搜索。华为FusionInsight率先实现了对Hadoop平台与MPPDB数仓平台的统一全文检索,率先支持SQLonSolr接口,提升业务开发效率5倍以上,独创标签索引方案,提升搜索性能3-10倍。目前,实时搜索技术在平安城市和金融行业已经实现商用。在国内某省的平安城市项目中,百亿级规模数据集中查询,实时搜索响应时间《3秒。
第三个是实时决策。与日常生活息息相关的很多业务是需要实时决策的,比如使用银行卡交易过程中的风险控制。由于传统技术处理速度的原因,往往只能实现事后风控。也就是说用户在刷卡完成后,银行才能够检查出来,刚才的交易是否有风险。这样对于银行和客户而言,都会有很大的风险存在。而华为FusionInsight实时决策平台,可以实现毫秒级复杂规则的风险检查,提供百万TIPS的业务处理能力,从而让风险控制从事后变为事中,并确保端到端的交易可在500毫秒内完成,不影响交易用户的体验。
第四个是图分析技术。在生活中有很多时候是需要进行用户的关系分析来进行风险控制和业务处理的。如果我们的客户中有一个是VIP客户,那么他的朋友符合VIP客户条件的可能性就会很大。因此如果我们能够通过关系分析技术找到他的朋友圈,在针对他的朋友进行针对性营销,那么业务成功的可能性也就会大大增加。但是,传统的数据库技术在处理客户关系发现时很困难,某公司曾经做过一个测试,想在2000万客户中发现客户间的关系信息,但是一直无法算出来。但是用图分析技术就可以很好解决这一类问题。因为在图数据库中,用户就是点,用户关系就是边,发现用户关系就变成了发现点与点间需要几条边的问题。华为的分布式图数据库,能够实现万亿顶点百亿边的实时查询,从而很快发现用户关系。在某项目中,华为帮助客户实现了13.7亿条关系图谱数据,3层关系查询秒级响应,从而大大提高了业务响应的速度。
最后,华为大数据平台是有着丰富的市场实践的产品。华为FusionInsight大数据平台已在40+个国家,总计700+项目中实现了成功商用。客户包括中国石油、一汽集团、中国商飞、工商银行、招商银行、中国移动、西班牙电信等众多世界500强企业。同时华为公司在全球建成有13个开放实验室,在这里华为与各国200+合作伙伴进行大数据方案的联合创新,包括SAP、埃森哲、IBM、宇信科技、中软国际等,共同推动大数据技术在各行各业的应用。
数博会正在进行中,相约数博会,与华为共同开启大数据时代美好未来!
全部0条评论
快来发表一下你的评论吧 !