登录/注册

机器学习实战数据

更多

好的!以下是为中文读者整理的机器学习实战常用数据集,涵盖多个领域和任务类型。这些数据集通常易于获取,且常被用于教程和实战练习中:

一、 经典基准数据集

  1. Iris 鸢尾花数据集

    • 描述: 包含3种鸢尾花(Setosa, Versicolor, Virginica)的花萼长度、花萼宽度、花瓣长度、花瓣宽度4个特征,共150条记录。
    • 任务: 分类(多分类)
    • 获取: 内置于 scikit-learn (sklearn.datasets.load_iris()),CSV 文件广泛可下载。
    • 特点: 非常小且简单,适合学习分类算法基础(如 KNN, 决策树)。
  2. Wine 葡萄酒数据集

    • 描述: 记录了来自意大利同一地区但不同品种的葡萄酒(3种)的化学分析结果(13个特征)。
    • 任务: 分类(多分类)
    • 获取: 内置于 scikit-learn (sklearn.datasets.load_wine()),CSV 文件广泛可下载。
    • 特点: 比 Iris 复杂一些,特征更多,适合巩固分类算法。
  3. Breast Cancer Wisconsin (Diagnostic) 威斯康星州乳腺癌(诊断)数据集

    • 描述: 通过细胞核特征(半径、纹理、周长、面积、光滑度等,共30个特征)来预测乳腺肿瘤是良性(Benign)还是恶性(Malignant)。
    • 任务: 分类(二分类)
    • 获取: 内置于 scikit-learn (sklearn.datasets.load_breast_cancer()),UCI 机器学习仓库。
    • 特点: 真实医疗数据(匿名化处理),经典二分类问题。
  4. Boston Housing 波士顿房价数据集

    • 描述: 收集了波士顿地区房屋的价格以及一些可能相关的特征(如犯罪率、房间数、距离就业中心距离等,共13个特征)。
    • 任务: 回归(预测房价)
    • 获取: 以前内置于 scikit-learn (现部分版本移除,需注意加载方式改变),但数据集本身可通过其他途径下载(如 Kaggle)。替代推荐 fetch_california_housing() 加利福尼亚房价数据集(仍在 scikit-learn 中)。
    • 特点: 经典回归问题实战数据集。
  5. MNIST 手写数字数据集

    • 描述: 包含 60,000 张训练图像和 10,000 张测试图像,都是 28x28 像素的手写数字 (0-9) 的灰度图。
    • 任务: 分类(多分类,数字识别)
    • 获取: Keras (tf.keras.datasets.mnist.load_data()) / TensorFlow / PyTorch / scikit-learn 等框架内置,或直接从官网下载图像文件。
    • 特点: 计算机视觉入门“Hello World”级数据集,适合学习图像分类(特别是神经网络/CNN)。
  6. Fashion-MNIST 时尚物品数据集

    • 描述: 替代 MNIST 的现代数据集,包含 60,000 张训练图像和 10,000 张测试图像,都是 28x28 像素的灰度图,内容是10类时尚物品(T恤/裤子/套头衫/裙子/外套/凉鞋/衬衫/运动鞋/包包/靴子)。
    • 任务: 分类(多分类)
    • 获取: Keras (tf.keras.datasets.fashion_mnist.load_data()) / TensorFlow / PyTorch / scikit-learn 等框架内置。
    • 特点: 比 MNIST 稍微复杂,识别难度稍高,但仍是结构良好的图像数据集。
  7. CIFAR-10 / CIFAR-100

    • 描述: CIFAR-10 包含 60,000 张 32x32 彩色图像,分为 10 大类(飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车)。CIFAR-100 则包含 100 个更细粒度的类别。
    • 任务: 分类(多分类,图像识别)
    • 获取: Keras / TensorFlow / PyTorch 等框架内置。
    • 特点: 小而真实的彩色图像数据集,适合学习更复杂的图像分类模型(CNN)。

二、 文本/自然语言处理 (NLP) 数据集

  1. IMDB 电影评论数据集

    • 描述: 包含来自 IMDB 网站的 50,000 条电影评论,标记为正面评价或负面评价。
    • 任务: 情感分析(二分类)
    • 获取: Keras (tf.keras.datasets.imdb.load_data()) 内置(自带整数序列形式),或可找到原始文本版本。注意:Keras加载的是编码好的序列。
    • 特点: 文本分类入门数据集,常用于词嵌入(Embedding)、RNN/LSTM/Transformer学习。
  2. 20 Newsgroups 20类新闻文本数据集

    • 描述: 包含大约20,000篇新闻组文档,均匀分布在20个不同的新闻组主题中(如计算机、娱乐、科学、宗教、政治等)。
    • 任务: 文本分类(多分类)
    • 获取: 内置于 scikit-learn (sklearn.datasets.fetch_20newsgroups())。也可下载原始文本。
    • 特点: 经典文本分类数据集,适合学习 TF-IDF、朴素贝叶斯、SVM 等文本分类算法。
  3. AG News / DBpedia / Yahoo! Answers (Hugging Face Datasets)

    • 描述: Hugging Face 的 datasets 库提供了大量公开可用的文本数据集。常见用于分类的有:
      • ag_news: 4类新闻标题和描述分类(世界、体育、商业、科技)。
      • dbpedia_14: 14个顶级类别的维基百科文本分类(公司、教育机构、艺术家、运动员等)。
      • yahoo_answers_topics: 10类(如商业、科技、健康、教育等)的 Yahoo! Answers 问题和答案。
    • 任务: 文本分类(多分类)
    • 获取: 使用 Hugging Face datasets 库加载(datasets.load_dataset('ag_news') 等)。
    • 特点: 格式统一,易于通过 datasets 库加载和预处理,适合快速实验不同文本分类模型(包括预训练语言模型)。
  4. Chinese NER/情感分析数据集 (需搜索特定来源)

    • 描述: 如 People's Daily NER 语料库(中文命名实体识别)、ChnSentiCorp(中文情感分析语料)、Baidu ERNIE 等项目中发布的特定中文语料。
    • 任务: 中文命名实体识别 (NER)、情感分析等。
    • 获取: 需通过 GitHub、GitEE、AI Studio 或相关研究论文提供的链接搜索下载。
    • 特点: 对中文 NLP 实战非常重要,但获取需要稍费周折。

三、 推荐系统数据集

  1. MovieLens

    • 描述: 最著名的电影评分数据集。常用版本有:
      • MovieLens 100K: 100,000 条来自 1000 名用户对 1700 部电影的评分。
      • MovieLens 1M: 1百万条评分。
      • MovieLens 25M/27M: 超大规模。
    • 任务: 推荐系统(评分预测、Top-N推荐)
    • 获取: 官网下载。
    • 特点: 推荐系统领域的金标准数据集,适合学习协同过滤(基于用户、基于物品)、矩阵分解、深度学习推荐模型等。
  2. Amazon Product Data

    • 描述: 亚马逊公开的商品评论和元数据(如商品标题、描述、类别、评分、评论文本、时间戳等)。数据量庞大,可按需选择子集(如特定类别)。
    • 任务: 推荐系统、情感分析、评分预测、类别预测等。
    • 获取: Amazon 官方网页提供下载链接(需按说明填写表格或遵守协议)。
    • 特点: 真实且大规模,包含丰富的文本信息。

四、 时间序列数据集

  1. Air Passengers (航空公司乘客数量)

    • 描述: 记录了 1949 年 1 月到 1960 年 12 月共 12 年间的月度航空公司旅客总数。
    • 任务: 时间序列预测
    • 获取: 广泛可用,通常在时间序列库如 statsmodels 演示中使用 (statsmodels.datasets.get_rdataset("AirPassengers").data),或下载CSV。
    • 特点: 小但经典,有明显趋势和季节性,适合入门学习 ARIMA/SARIMA/指数平滑等传统模型。
  2. NASDAQ / S&P 500 / 个股历史股价数据

    • 描述: 金融市场的历史开盘价、最高价、最低价、收盘价、成交量等数据。
    • 任务: 时间序列预测(股价、波动性)
    • 获取: 多个金融数据平台(Yahoo Finance yfinance Python库, Alpha Vantage, Quandl等)提供API或历史数据下载。
    • 特点: 真实金融数据,但具有高噪声和不可预测性,适合高级模型(LSTM, Prophet, N-Beats)。
  3. Electricity Consumption (UCI) / Household Power Consumption

    • 描述: 如 UCI 的 Individual household electric power consumption Dataset 记录了单个家庭在4分钟间隔下的用电量和其他测量值(电压、功率等)。
    • 任务: 时间序列预测(用电负荷预测)
    • 获取: UCI ML仓库。
    • 特点: 真实多变量时间序列数据,适合预测多步未来值或处理大规模序列。

五、 其他实用数据集来源

实战选择建议

  1. 根据任务选数据: 想练分类?选 Iris, Wine, Breast Cancer, MNIST/Fashion-MNIST, IMDB, 20Newsgroups。想练回归?选 Boston Housing (或其替代品), California Housing。想练图像?选 MNIST, Fashion-MNIST, CIFAR。想练文本?选 IMDB, 20Newsgroups, AG News。
  2. 由简入难: 从小数据集(如 Iris, Boston Housing)开始掌握算法和流程,再过渡到复杂些的数据集(Breast Cancer, CIFAR-10, IMDB)。
  3. 尝试不同类型: 既要接触表格数据,也要尝试图像、文本、时间序列数据。
  4. Kaggle & Hugging Face Datasets 是你的好朋友: 找数据、学代码、看方案的不二之选。
  5. 注重数据探索和预处理: 实战的核心步骤往往是理解数据(EDA)和清洗/转换数据(Preprocessing)。不要期望原始数据拿过来就能完美训练模型。

希望这份中文版机器学习实战数据集列表能帮助到你!开始动手实践吧!

机器学习数据挖掘方法和应用

机器学习与数据挖掘方法和应用(经典)

2023-09-26 07:56:49

机器学习数据挖掘的区别 机器学习数据挖掘的关系

机器学习与数据挖掘的区别 , 机器

2023-08-17 16:30:00

python数据挖掘与机器学习

python数据挖掘与机器学习 Python是一个非常流行的编程语言,被广泛用于数据

2023-08-17 16:29:38

面向机器学习的高可用、高并发数据库:OpenMLDB

  机器学习应用从开发到上线全流程(MLOps)  OpenMLDB 是一个开源机器学

资料下载 香香技术员 2023-03-31 15:43:35

机器学习必学的Python代码示例集

机器学习必学的Python代码示例集

资料下载 鸭子定律_ 2021-06-21 09:35:46

机器学习的训练样本数据选择方法综述

机器学习作为数据挖掘中一种重要的工具,不只是对人的认知学习过程的探索,还

资料下载 佚名 2021-04-26 14:45:46

一种可分享数据机器学习模型的区块链

作为一种可用于分享数据和机器学习模型的区抉链,基于骨架网络训练神经网络模型,以全网节点匿名分享的

资料下载 佚名 2021-04-14 16:09:26

机器学习实战的源代码资料合集

本文档机器学习实战的源代码资料合集

资料下载 佚名 2021-03-01 09:28:00

机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

机器学习算法总结 机器学习算法是什么?

2023-08-17 16:11:50

什么是机器学习? 机器学习基础入门

中,我将概述机器学习,它是如何工作的,以及为什么它对嵌入式工程师很重要。什么是机器学习

2022-06-21 11:06:37

机器学习实战之logistic回归

输入数据的判断结果。过程非常关键,需要预测函数的大概形式, 比如是线性还是非线性的。 本文参考机器学习

2020-09-29 15:17:40

机器学习实战-基于Sophon平台的机器学习理论与实践》现已问世

本书由星环科技人工智能平台研发团队合著,凝聚了来自算法专家及一线软件工程专家的实战经验。相比于国内学术人员的教材或国外译注,本教材案例来自本土真实的业界实践,更加贴合国内机器

2020-01-16 08:11:00

阿里机器智能11个经典实战案例

传统程序员如何学习机器智能?阿里公开11个经典实战案例

2019-09-19 08:11:04

机器学习的图像压缩应用

DIY图像压缩——机器学习实战之K-means 聚类图像压缩:色彩量化

2019-08-19 07:07:18

推荐几本机器学习和深度学习必读书籍+机器学习实战视频PPT+大数据分析书籍

小白 机器学习和深度学习必读书籍+机器

2019-07-22 17:02:39
7天热门专题 换一换
相关标签