python机器学习实战
更多
Python机器学习实战:鸢尾花分类(使用Scikit-learn)
本教程将带您实现一个经典的机器学习分类任务:使用鸢尾花数据集训练模型并预测花卉种类。
1. 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix
2. 加载数据集并进行探索性分析
# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data # 特征矩阵 (150个样本 x 4个特征)
y = iris.target # 目标向量 (3种类别)
# 查看数据集信息
print("特征名称:", iris.feature_names)
print("目标类别:", iris.target_names)
print("数据集维度:", X.shape)
3. 数据预处理
# 划分训练集和测试集 (70%训练, 30%测试)
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.3, random_state=42
)
# 特征标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
4. 创建并训练KNN分类器
# 创建KNN模型(选择5个邻居)
knn = KNeighborsClassifier(n_neighbors=5)
# 训练模型
knn.fit(X_train, y_train)
5. 模型评估
# 在测试集上进行预测
y_pred = knn.predict(X_test)
# 输出评估报告
print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))
print("\n分类报告:\n", classification_report(y_test, y_pred))
# 计算准确率
accuracy = knn.score(X_test, y_test)
print(f"模型准确率: {accuracy:.2f}")
6. 可视化结果(选择两个主要特征)
# 提取前两个特征:花萼长度和花萼宽度
X_2d = X[:, :2]
# 可视化决策边界
x_min, x_max = X_2d[:, 0].min() - 1, X_2d[:, 0].max() + 1
y_min, y_max = X_2d[:, 1].min() - 1, X_2d[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
np.arange(y_min, y_max, 0.02))
Z = knn.predict(np.c_[xx.ravel(), yy.ravel(), np.zeros(xx.ravel().shape), np.zeros(xx.ravel().shape)])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.8)
plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y, edgecolor='k')
plt.xlabel('花萼长度 (cm)')
plt.ylabel('花萼宽度 (cm)')
plt.title('KNN分类决策边界')
plt.show()
7. 实际使用模型进行预测
# 输入新花的特征数据(已标准化)
new_flower = np.array([[5.1, 3.5, 1.4, 0.2]]) # 示例数据
# 预测花的类型
predicted_class = knn.predict(new_flower)
# 输出预测结果
print(f"预测花的类型是: {iris.target_names[predicted_class][0]}")
实际输出结果示例:
特征名称: ['花萼长度 (cm)', '花萼宽度 (cm)', '花瓣长度 (cm)', '花瓣宽度 (cm)']
目标类别: ['setosa' 'versicolor' 'virginica']
混淆矩阵:
[[19 0 0]
[ 0 13 0]
[ 0 1 12]]
分类报告:
precision recall f1-score support
0 1.00 1.00 1.00 19
1 0.93 1.00 0.96 13
2 1.00 0.92 0.96 13
accuracy 0.98 45
macro avg 0.98 0.97 0.97 45
weighted avg 0.98 0.98 0.98 45
模型准确率: 0.98
关键知识点:
- KNN算法原理:根据距离最近的k个样本的多数投票决定分类
- 数据标准化的重要性:消除特征量纲影响
- 模型评估指标:
- 混淆矩阵:显示分类错误的具体情况
- 准确率(Accuracy):正确预测的样本比例
- 精确率(Precision):预测为正的样本中实际为正的比例
- 召回率(Recall):实际为正的样本中被预测为正的比例
提示:尝试修改
n_neighbors参数值(如3,7,10)观察模型性能变化,可通过交叉验证找到最优k值。
这个项目涵盖了机器学习完整流程:数据加载→预处理→建模→评估→可视化→部署。接下来您可以尝试使用其他分类器(如SVM、决策树)进行对比实验!
Python机器学习入门之pandas的使用提示
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写
2021-08-13 07:36:45
Python的学习和使用经验说明
本文对Python 的版本选择, IDE 选择及编码的解决方案进行了一番详细的描述,实为Python 开发人员必读的Python
资料下载
佚名
2020-09-01 16:46:00
Java和Python机器学习框架都有哪些
机器学习的爆炸性增长推动了许多开源工具的发展,使得开发人员更容易学习其技术。接下来,我们来看看开发者最喜欢的Java和
2020-05-18 11:48:44
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 中科院研发成功2nm光刻机
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机