python机器学习实战

Python机器学习实战：鸢尾花分类（使用Scikit-learn）

本教程将带您实现一个经典的机器学习分类任务：使用鸢尾花数据集训练模型并预测花卉种类。

1. 导入必要的库

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

2. 加载数据集并进行探索性分析

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data  # 特征矩阵 (150个样本 x 4个特征)
y = iris.target  # 目标向量 (3种类别)

# 查看数据集信息
print("特征名称:", iris.feature_names)
print("目标类别:", iris.target_names)
print("数据集维度:", X.shape)

3. 数据预处理

# 划分训练集和测试集 (70%训练, 30%测试)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 特征标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

4. 创建并训练KNN分类器

# 创建KNN模型（选择5个邻居）
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train, y_train)

5. 模型评估

# 在测试集上进行预测
y_pred = knn.predict(X_test)

# 输出评估报告
print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))
print("\n分类报告:\n", classification_report(y_test, y_pred))

# 计算准确率
accuracy = knn.score(X_test, y_test)
print(f"模型准确率: {accuracy:.2f}")

6. 可视化结果（选择两个主要特征）

# 提取前两个特征：花萼长度和花萼宽度
X_2d = X[:, :2]

# 可视化决策边界
x_min, x_max = X_2d[:, 0].min() - 1, X_2d[:, 0].max() + 1
y_min, y_max = X_2d[:, 1].min() - 1, X_2d[:, 1].max() + 1

xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                     np.arange(y_min, y_max, 0.02))

Z = knn.predict(np.c_[xx.ravel(), yy.ravel(), np.zeros(xx.ravel().shape), np.zeros(xx.ravel().shape)])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.8)
plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y, edgecolor='k')
plt.xlabel('花萼长度 (cm)')
plt.ylabel('花萼宽度 (cm)')
plt.title('KNN分类决策边界')
plt.show()

7. 实际使用模型进行预测

# 输入新花的特征数据（已标准化）
new_flower = np.array([[5.1, 3.5, 1.4, 0.2]])  # 示例数据

# 预测花的类型
predicted_class = knn.predict(new_flower)

# 输出预测结果
print(f"预测花的类型是: {iris.target_names[predicted_class][0]}")

实际输出结果示例：

特征名称: ['花萼长度 (cm)', '花萼宽度 (cm)', '花瓣长度 (cm)', '花瓣宽度 (cm)']
目标类别: ['setosa' 'versicolor' 'virginica']

混淆矩阵:
 [[19  0  0]
 [ 0 13  0]
 [ 0  1 12]]

分类报告:
               precision    recall  f1-score   support
           0       1.00      1.00      1.00        19
           1       0.93      1.00      0.96        13
           2       1.00      0.92      0.96        13

    accuracy                           0.98        45
   macro avg       0.98      0.97      0.97        45
weighted avg       0.98      0.98      0.98        45

模型准确率: 0.98

关键知识点：

KNN算法原理：根据距离最近的k个样本的多数投票决定分类
数据标准化的重要性：消除特征量纲影响
模型评估指标：
- 混淆矩阵：显示分类错误的具体情况
- 准确率(Accuracy)：正确预测的样本比例
- 精确率(Precision)：预测为正的样本中实际为正的比例
- 召回率(Recall)：实际为正的样本中被预测为正的比例