如何利用Flood多维索引技术实现优化数据存储布局

枫雪路 2020-09-22 4734

电子说

1.4w人已加入

描述

在多维索引表格（multi－dimensional table）上进行扫描和筛选是现代分析型数据库引擎的关键技术。为了对这些操作进行优化，数据库常建立起聚类的索引结构（indexes），如R－Trees，Z－ordering等，然而这些索引结构在不同的数据集以及查询集合（query workload）下很难进行统一优化。在本篇论文中，提出了名为Flood的多维学习索引结构。通过同时优化索引结构以及存储布局，这种结构自动地调整自身以适应具体数据集和查询集合。该工作用来为端到端学习型数据库系统构建索引模块。

论文背景

在多维索引表格上进行扫描和筛选是现代分析型数据库引擎的关键技术之一。如果数据完全根据其中某一个属性（attribute）进行组织，即不会涉及到多个属性同时被访问的情况，那么通过建立平衡树或者进行简单二分搜索的方法已经足够。然而，如果数据需要通过不同属性进行筛选，那么通过建立多层索引的方法是不足以解决问题的。多层索引所带来的存储代价是的这项技术只能被应用在很小的范围内。另一种解决方案是建立起多维索引（multi－dimensional indexes）对数据进行组织管理。如Redshift以及Spark－SQL使用Z－ordering技术来对数据进行布局，一些空间数据库则尝试使用R－tree来进行索引。然而，现有的多维索引技术有着显著的缺点。首先，这些技术都非常难以根据实际的数据集进行优化。其次，没有一项方案可以作为所有问题的统一解决方法。不同的数据集以及查询集合将会决定使用不同的多维索引技术。

为了解决上述缺点，本文提出了名为Flood的基于内存的学习多维索引。该索引方案的重点在于自动地同时优化数据存储布局以及索引的结构，以此来获得优于其他所有多维索引的索引速度。Flood框架有以下两个重点idea：

1．使用一个下采样的查询集合，即一小部分查询样例构成的查询集合样本，以此来学习不同维度属性在查询过程中的使用频率。基于该信息，Flood框架自动地调节数据存储布局，以此优化索引性能。

2．使用一个累计分布函数CDF（Calculative Distribution Function）模型来将多维上可能的倾斜数据映射到一个均匀空间中。这个平滑（Flatten）过程使得每一个存储的存储单元储存的数据量基本一致。以此更快地进行索引。

Flood框架的主要贡献有三：

1．提出了第一个学习型多维索引，Flood框架。Flood从一个筛选断言集合，即一个下采样的查询集合中学习查询集合的分布函数，以此调节数据存储布局。

2．使用三个真实数据集评估了多个不同的多维索引结构，实验显示Flood框架大大优于其他的多维索引结构。

3．实验显示出Flood框架在不同的Filter Predicates上都实现了搜索加速，其索引结构的建立速度与其他多维索引的建立速度相当。

论文模型