什么是高维数据_高维数据如何定义

Shirleykwan 2018-02-12 64618

电子说

1.4w人已加入

描述

高维数据的概念其实不难，简单的说就是多维数据的意思。平时我们经常接触的是一维数据或者可以写成表形式的二维数据，高维数据也可以类推，不过维数较高的时候，直观表示很难。

目前高维数据挖掘是研究重点，

　　这是它的特点：

高维数据挖掘是基于高维度的一种数据挖掘，它和传统的数据挖掘最主要的区别在于它的高维度。目前高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易，导致数据库规模越来越大、复杂性越来越高，如各种类型的贸易交易数据、Web 文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等，它们的维度（属性）通常可以达到成百上千维，甚至更高。

由于高维数据存在的普遍性，使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响，也使得高维数据挖掘变得异常地困难，必须采用一些特殊的手段进行处理。随着数据维数的升高，高维索引结构的性能迅速下降，在低维空间中，我们经常采用欧式距离作为数据之间的相似性度量，但在高维空间中很多情况下这种相似性的概念不复存在，这就给高维数据挖掘带来了很严峻的考验，一方面引起基于索引结构的数据挖掘算法的性能下降，另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种：可以通过降维将数据从高维降到低维，然后用低维数据的处理办法进行处理；对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能；对失效的问题通过重新定义使其获得新生。

高维数据处理

PCA

非监督

利用协方差矩阵寻找投射函数ω使得投射到低维空间后的最大离散（方差）使用拉格朗日解不等式

根据求得的特征值进行特征向量的选择

一般求信息率90%以上的特征向量集

对于N远大于D的数据，使用SVD（奇异值）进行求解

先进行一次自乘降维再进行训练

LDA

监督性

寻求使得类内方差最小并且类间差异性最大的投射空间

SOM

聚类方法

- 取差异性对周围范围的邻居进行更新

MDS

非监督降维

注重数据的相对距离（关系），有利于流型数据的降维和可视化

但对原数据整体结构破坏严重

三个基本步骤：

计算stress

更新投射函数

检查disparity

ReliefF

ReliefF处理多分类的情况，Relief只能处理两分类

用于对特征进行赋权，通过权值进行过滤

算法输入：数据集D，包含c类样本，子集采样数m，权值阈值δ， kNN系数k算法步骤：

数据挖掘

LLE和ISOMAP

一些总结

高纬度数据建模的基本思想是寻找函数f（x）：

f（x）将数据投射到一个低维的空间

在低维空间中数据的某些特征可以保持

方法的选择：

注重降低维度并提高数据的可分析性则使用PCA，对于大量数据使用SVD

注重类间区分和类内区分，则使用LDA

注重数据的相互关联，并且数据复杂不可分，则使用MDS

对于流形，使用LLE和IOSMAP

打开APP阅读更多精彩内容