通过简单的暴力求解的方式实现KNN算法

电子工程师 2019-02-04 4692

电子说

1.4w人已加入

描述

一、KNN回顾

k 近邻学习是一种常用的监督学习方法，比如：判断一个人的人品，只需要观察与他来往最密切的几个人的人品好坏就可以得出，即“近朱者赤，近墨者黑”。

理论/原理：“物以类聚，人以群分”

相同/近似样本在样本空间中是比较接近的，所以可以使用和当前样本比较近的其他样本的目标属性值作为当前样本的预测值。

k 近邻法的工作机制很简单：

给定测试样本，基于某种距离度量（一般使用欧几里德距离）找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。

二、KNN三要素

1、K值的选择

对于K值的选择，一般根据样本分布选择一个较小的值，然后通过交叉验证来选择一个比较合适的最终值；

当选择比较小的K值的时候，表示使用较小领域中的样本进行预测，训练误差会减小，但是会导致模型变得复杂，容易导致过拟合；

当选择较大的K值的时候，表示使用较大领域中的样本进行预测，训练误差会增大，同时会使模型变得简单，容易导致欠拟合；

2、距离度量

一般使用欧几里德距离

关于距离度量，还有其他方式

3、决策规则

KNN在做回归和分类的主要区别在于最后做预测时的决策方式不同：

（1）分类预测规则：一般采用多数表决法或者加权多数表决法

数据集

假设图中 “？”表示待预测样本，红色圆表示一类，蓝色方块表示一类，2和3表示到待预测样本的距离

1. 多数表决法：

每个邻近样本的权重是一样的，也就是说最终预测的结果为出现类别最多的那个类；

如图，待预测样本被预测为红色圆

2. 加权多数表决法：

每个邻近样本的权重是不一样的，一般情况下采用权重和距离成反比的方式来计算，也就是说最终预测结果是出现权重最大的那个类别；

如图，红色圆到待预测样本的距离为3，蓝色方块到待预测样本的距离为2，权重与距离成反比，所以蓝色的权重比较大，待预测样本被预测为蓝色方块。

（2）回归预测规则：一般采用平均值法或者加权平均值法

数据集

假设上图中的2和3表示邻近样本的目标属性值（标签值），此时没有类别，只有属性值

1、平均值法

每个邻近样本的权重是一样的，也就是说最终预测的结果为所有邻近样本的目标属性值的均值；

如图，均值为(3+3+3+2+2)/5=2.6

2、加权平均值法

数据集

图中，双箭头线上的数表示到待预测样本的距离

每个邻近样本的权重是不一样的，一般情况下采用权重和距离成反比的方式来计算，也就是说在计算均值的时候进行加权操作；

如图，权重分别为（各自距离反比占距离反比总和的比例）:

属性值为3的权重：

数据集

属性值为2的权重：

数据集

待预测样本的加权平均值为：

数据集

三、手写 k 近邻算法

实现kNN分类算法的伪代码：

对未知类别属性的数据集中的每个点依次执行一下操作：

（1）计算已知类别数据集中的点与当前点之间的距离

（2）按照距离递增次序排序

（3）选取与当前点距离最小的k个点

（4）确定前k个点所在类别的出现频数

（5）返回当前k个点出现频数最高的类别作为当前点的预测分类

欧氏距离公式：

数据集

例如求点(1,0,0,1) (1,0,0,1)(1,0,0,1)和(7,6,9,4) (7,6,9,4)(7,6,9,4)之间的距离：

数据集

检测分类器效果：

可以使用已知类别的数据（当然不告诉分类器），检验分类器给出的结果是否与已知类别相同，通过大量的测试数据，我们可以计算出分类器的错误率。

以上算法的实现是用于分类的，决策规则使用了多数表决法；此算法通过改变决策规则，同样可以用于回归。

源代码可见：https://github.com/Daycym/Machine_Learning/tree/master/03_KNN；01_k近邻算法.py

四、使用手写k kk 近邻算法的案例

1、案例1：约会网站的配对效果

样本包括3种特征：

每年获得的飞行常客里程数

玩视频游戏所耗时间百分比

每周消费的冰淇淋公升数

样本包括3种标签：

不喜欢的人

魅力一般的人

极具魅力的人

部分数据格式为：

数据集

代码可见：02_约会网站的配对效果.py

2、案例2：手写数字识别系统

数据集包括训练集和测试集

数据是32*32的二进制文本文件

需要将文本数据转换为Numpy数组

如下是0的一种表示：

100000000000001100000000000000000 200000000000011111100000000000000 300000000000111111111000000000000 400000000011111111111000000000000 500000001111111111111100000000000 600000000111111100011110000000000 700000001111110000001110000000000 800000001111110000001110000000000 90000001111110000000111000000000010000000111111000000011110000000001100000011111100000000011100000000120000001111110000000001110000000013000000111110000000000011100000001400000011111000000000001110000000150000000111110000000000011100000016000000011111000000000001110000001700000001111100000000000111000000180000001111100000000000011100000019000000111110000000000001110000002000000000111100000000000011100000210000000011110000000000011110000022000000001111000000000001111000002300000000111100000000001111100000240000000001111000000000011111000025000000000111110000000011111000002600000000011111000000011111100000270000000001111100000011111100000028000000000111111000111111110000002900000000000111111111111110000000300000000000011111111111110000000031000000000000111111111100000000003200000000000000111110000000000000

预测错误的总数为：10

手写数字识别系统的错误率为：0.010571

代码可见：03_手写数字识别系统.py

五、KD树

KNN算法的重点在于找出K个最邻近的点，主要方法如下：

1、蛮力实现(brute)

计算出待预测样本到所有训练样本的训练数据，然后选择最小的K个距离即可得到K个最邻近点；

当特征数比较多，样本数比较多的时候，算法的执行效率比较低。

2、KD树(KD_Tree)

KD_Tree算法中，首先是对训练数据进行建模，构建KD树，然后再根据构建好的模型来获取邻近样本数据

KD_Tree是KNN算法中用于计算最近邻的快速、便捷构建方式

除此之外，还有一些从KD_Tree修改后的求解最邻近点的算法，比如：Ball Tree、BBF Tree、MVP Tree等