×

一种面向HDFS的多层索引技术

消耗积分:3 | 格式:rar | 大小:1.56 MB | 2017-12-30

分享资料个

SOH(SQL over HDFS)系统通常将数据存储于分布式文件系统 HDFS(Hadoop distributed file system)中,采用 Map/Reduce 或分布式查询引擎来处理查询任务.得益于 HDFS 以及 Map/Reduce 的容错能力和可扩展性,SOH 系统可以很好地应对数据规模的飞速增长,完成分析型查询处理.然而,在处理选择型查询或交互式查询时,这类系统暴露出了性能上的缺陷.提出一种通用的索引技术,可以应用于 SOH 系统中,以提高其查询处理的效率.分析了 SOH系统访问 HDFS 文件的过程,指出了其中影响数据加载时间的关键因素.提出了 split 层和 split 内部双层索引机制;设计并实现了聚集索引和非聚集索引;最后,在标准数据集上进行了大量实验,并与现有基于 HDFS 的索引技术进行了比较.实验结果表明,所提出的索引技术可以有效地提高查询处理的效率。

一种面向HDFS的多层索引技术

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !