详解机器学习算法流形学习

fcsde-sh 2019-02-02 7885

描述

在格物汇之前的文章中，我们系统性的介绍了特征抽取的经典算法——主成分分析PCA与线性判别分析LDA的原理、应用场景，以及这两种算法的局限性和改进方法。今天的格物汇要给大家介绍一种新的机器学习算法——流形学习。

流形学习

流形学习是一类借鉴了拓扑流形概念的降维方法，与核PCA的目的一样，它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图，我们有一块卷起来的布，我们希望将其展开到一个二维平面，我们希望展开后的布能够在局部保持布结构的特征，其实也就是将其展开的过程，就像两个人将其拉开一样。

流形学习方法有很多种，但是他们具有一些共同的特征：首先构造流形上样本点的局部邻域结构，然后用这些局部邻域结构来将样本点全局的映射到一个低维空间。它们之间的不同之处主要是在于构造的局部邻域结构不同，以及利用这些局部邻域结构来构造全局的低维嵌入方法的不同。下面我们简要介绍两种最常见的流形学习方法：Isomap和LLE。

Isomap

高维数据结构可能太过于抽象，很难去理解。我们先来看一个具体的实例：在上一篇文章中，我们所看到的三维空间上的数据是呈现”S”型，假设我们想寻找图中两点的测地距离（延曲面距离），就不能用这两点坐标所计算的欧式距离，如下图（a）黑色线所示，因为黑色线所构成的路径延曲面不可达。而应该使用其沿着“S”形曲面所生成的距离，想象一下一只蚂蚁在数据曲面上爬行，它不能脱离曲面行走，行走的路径如下图（a）红色线所示。下图（b）则显示的是两条线本真二维结构上所显示的路径，很明显红色的线更加真实的反映了两个数据点在三维数据上的距离。

机器学习

上述这种寻找数据曲面测算距离的方法称为Isomap（等度量映射），它是流形学习中的一种方法。它是如何实现的呢？它假设数据点与K个最近邻的点可以构成一个子集，这个子集可以用普通的欧式距离来衡量，而这个子集中的点又与其他子集中的点相连，这样两个目标点的距离就可以分解成若干子集的欧式距离叠加来近似得到，最后这些相连的点可以降维到低维空间中展现出来。

机器学习