机器学习笔记之高斯过程（下）

jf_78858299 2023-05-30 1487

电子说

1.3w人已加入

描述

我们可以将输出绘制成输入的函数图像。下面的线只是一个常规的非随机函数，即weight=g(height)或y=g(x)。

机器学习

在本节中，我们使用符号g(x)表示一个非随机函数，而使用f(x)表示一个随机函数。

为了更轻松地生成训练数据，我们将切换到一个新模型y=sin(x)。我们使用这个方程生成2个训练数据点（下面的2个蓝点）来构建一个高斯模型。然后从机器学习中采样三次，如下面的三条实线所示。

机器学习

我们看到，这2个训练数据点强制机器学习在蓝点相交。如果我们持续采样，我们将开始直观地识别每个的的平均值和范围。例如，下面的红点和蓝线估计了=−3.8时的均值和方差。由于介于2个训练点之间，因此估计具有相对较高的不确定性（由σ表示）。

机器学习

在下面的图中，我们有5个训练数据，并从机器学习中采样30条线。红色虚线表示的均值输出值，灰色区域是离不超过2的范围。

如前所述，每条线都像一个函数，将输入映射到输出：y=g(x)。我们从许多可能的函数g开始，但是训练数据集会降低或增加某些函数的可能性。从技术上讲，机器学习模拟了给定训练数据集的函数g的可能性分布（上述绘制的线的概率分布）。

高斯过程(GP)的特点是构建高斯模型来描述函数的分布。

我们不会通过采样来解决这个问题，而是通过分析方法来解决。

回到：

机器学习

我们可以将表达式推广为以下形式，其中f是训练集的标签（体重），机器学习是我们要预测的体重。现在我们需要使用高斯模型来解决p(|f)的问题。

机器学习

回想一下之前关于多元高斯定理的部分，如果我们有一个模型：

机器学习

我们可以通过以下方式求机器学习：

机器学习

现在，我们应用这些公式来解决p( 机器学习 |f)的问题：

机器学习

对于训练数据集，假设输出标签f服从高斯分布：

机器学习

并且假设机器学习的高斯分布为：

机器学习

其中，L定义为：

机器学习

然后根据多元高斯定理，我们有：

机器学习

我们将应用这些公式来模拟采样自y=sin(x)的训练数据。在这个例子中，由于sin函数的均值为0，所以μ= 机器学习 =0。因此，我们的方程将简化为：

机器学习

请注意，矩阵K可能难以求逆。因此，我们首先应用Cholesky分解对K进行分解，然后应用线性代数来解决机器学习。

机器学习

表示使用线性代数方法来求Ax=b方程的解x。

在求机器学习之前，我们需要预先计算一些项：

机器学习

应用机器学习和上面的方程：

机器学习

现在我们有计算机器学习和的方程：

代码

首先，准备训练数据，并通过sin函数打标签。训练数据包含5个数据点（机器学习 =−4,−3,−2,−1和1）。

Xtrain = np.array([-4, -3, -2, -1, 1]).reshape(5,1)
ytrain = np.sin(Xtrain)      # Our output labels.

测试数据：我们创建50个新数据点，在-5和5之间线性分布，由高斯过程进行预测。

# 50 Test data
n = 50
Xtest = np.linspace(-5, 5, n).reshape(-1,1)

在这里，我们定义一个核函数，使用指数平方核度量两个数据点之间的相似性。

# A kernel function (aka Gaussian) measuring the similarity between a and b. 1 means the same.
def kernel(a, b, param):
    sqdist = np.sum(a**2,1).reshape(-1,1) + np.sum(b**2,1) - 2*np.dot(a, b.T)
    return np.exp(-.5 * (1/param) * sqdist)

计算核(K，机器学习，)：

K = kernel(Xtrain, Xtrain, param)                        # Shape (5, 5)
K_s = kernel(Xtrain, Xtest, param)                       # Shape (5, 50)
K_ss = kernel(Xtest, Xtest, param)                       # Kss Shape (50, 50)

我们将使用Cholesky分解对K进行分解，即机器学习。

L = np.linalg.cholesky(K + 0.00005*np.eye(len(Xtrain)))  # Shape (5, 5)

计算我们的预测的输出均值机器学习。由于我们假设μ∗=μ=0，因此该方程变为：

机器学习

L = np.linalg.cholesky(K + 0.00005*np.eye(len(Xtrain)))  # Add some nose to make the solution stable 
                                                         # Shape (5, 5)


# Compute the mean at our test points.
Lk = np.linalg.solve(L, K_s)                             # Shape (5, 50)
mu = np.dot(Lk.T, np.linalg.solve(L, ytrain)).reshape((n,)) # Shape (50, )

计算 σ

# Compute the standard deviation.
s2 = np.diag(K_ss) - np.sum(Lk**2, axis=0)               # Shape (50, )
stdv = np.sqrt(s2)                                       # Shape (50, )

采样机器学习以便我们可以绘制它的图像。

机器学习

使用μ和L作为方差来对其进行采样：

机器学习

L = np.linalg.cholesky(K_ss + 1e-6*np.eye(n) - np.dot(Lk.T, Lk))    # Shape (50, 50)
f_post = mu.reshape(-1,1) + np.dot(L, np.random.normal(size=(n,5))) # Shape (50, 3)