机器学习实战数据
更多
好的!以下是为中文读者整理的机器学习实战常用数据集,涵盖多个领域和任务类型。这些数据集通常易于获取,且常被用于教程和实战练习中:
一、 经典基准数据集
-
Iris 鸢尾花数据集
- 描述: 包含3种鸢尾花(Setosa, Versicolor, Virginica)的花萼长度、花萼宽度、花瓣长度、花瓣宽度4个特征,共150条记录。
- 任务: 分类(多分类)
- 获取: 内置于 scikit-learn (
sklearn.datasets.load_iris()),CSV 文件广泛可下载。 - 特点: 非常小且简单,适合学习分类算法基础(如 KNN, 决策树)。
-
Wine 葡萄酒数据集
- 描述: 记录了来自意大利同一地区但不同品种的葡萄酒(3种)的化学分析结果(13个特征)。
- 任务: 分类(多分类)
- 获取: 内置于 scikit-learn (
sklearn.datasets.load_wine()),CSV 文件广泛可下载。 - 特点: 比 Iris 复杂一些,特征更多,适合巩固分类算法。
-
Breast Cancer Wisconsin (Diagnostic) 威斯康星州乳腺癌(诊断)数据集
- 描述: 通过细胞核特征(半径、纹理、周长、面积、光滑度等,共30个特征)来预测乳腺肿瘤是良性(Benign)还是恶性(Malignant)。
- 任务: 分类(二分类)
- 获取: 内置于 scikit-learn (
sklearn.datasets.load_breast_cancer()),UCI 机器学习仓库。 - 特点: 真实医疗数据(匿名化处理),经典二分类问题。
-
Boston Housing 波士顿房价数据集
- 描述: 收集了波士顿地区房屋的价格以及一些可能相关的特征(如犯罪率、房间数、距离就业中心距离等,共13个特征)。
- 任务: 回归(预测房价)
- 获取: 以前内置于 scikit-learn (现部分版本移除,需注意加载方式改变),但数据集本身可通过其他途径下载(如 Kaggle)。替代推荐
fetch_california_housing()加利福尼亚房价数据集(仍在 scikit-learn 中)。 - 特点: 经典回归问题实战数据集。
-
MNIST 手写数字数据集
- 描述: 包含 60,000 张训练图像和 10,000 张测试图像,都是 28x28 像素的手写数字 (0-9) 的灰度图。
- 任务: 分类(多分类,数字识别)
- 获取: Keras (
tf.keras.datasets.mnist.load_data()) / TensorFlow / PyTorch / scikit-learn 等框架内置,或直接从官网下载图像文件。 - 特点: 计算机视觉入门“Hello World”级数据集,适合学习图像分类(特别是神经网络/CNN)。
-
Fashion-MNIST 时尚物品数据集
- 描述: 替代 MNIST 的现代数据集,包含 60,000 张训练图像和 10,000 张测试图像,都是 28x28 像素的灰度图,内容是10类时尚物品(T恤/裤子/套头衫/裙子/外套/凉鞋/衬衫/运动鞋/包包/靴子)。
- 任务: 分类(多分类)
- 获取: Keras (
tf.keras.datasets.fashion_mnist.load_data()) / TensorFlow / PyTorch / scikit-learn 等框架内置。 - 特点: 比 MNIST 稍微复杂,识别难度稍高,但仍是结构良好的图像数据集。
-
CIFAR-10 / CIFAR-100
- 描述: CIFAR-10 包含 60,000 张 32x32 彩色图像,分为 10 大类(飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车)。CIFAR-100 则包含 100 个更细粒度的类别。
- 任务: 分类(多分类,图像识别)
- 获取: Keras / TensorFlow / PyTorch 等框架内置。
- 特点: 小而真实的彩色图像数据集,适合学习更复杂的图像分类模型(CNN)。
二、 文本/自然语言处理 (NLP) 数据集
-
IMDB 电影评论数据集
- 描述: 包含来自 IMDB 网站的 50,000 条电影评论,标记为正面评价或负面评价。
- 任务: 情感分析(二分类)
- 获取: Keras (
tf.keras.datasets.imdb.load_data()) 内置(自带整数序列形式),或可找到原始文本版本。注意:Keras加载的是编码好的序列。 - 特点: 文本分类入门数据集,常用于词嵌入(Embedding)、RNN/LSTM/Transformer学习。
-
20 Newsgroups 20类新闻文本数据集
- 描述: 包含大约20,000篇新闻组文档,均匀分布在20个不同的新闻组主题中(如计算机、娱乐、科学、宗教、政治等)。
- 任务: 文本分类(多分类)
- 获取: 内置于 scikit-learn (
sklearn.datasets.fetch_20newsgroups())。也可下载原始文本。 - 特点: 经典文本分类数据集,适合学习 TF-IDF、朴素贝叶斯、SVM 等文本分类算法。
-
AG News / DBpedia / Yahoo! Answers (Hugging Face Datasets)
- 描述: Hugging Face 的
datasets库提供了大量公开可用的文本数据集。常见用于分类的有:ag_news: 4类新闻标题和描述分类(世界、体育、商业、科技)。dbpedia_14: 14个顶级类别的维基百科文本分类(公司、教育机构、艺术家、运动员等)。yahoo_answers_topics: 10类(如商业、科技、健康、教育等)的 Yahoo! Answers 问题和答案。
- 任务: 文本分类(多分类)
- 获取: 使用 Hugging Face
datasets库加载(datasets.load_dataset('ag_news')等)。 - 特点: 格式统一,易于通过
datasets库加载和预处理,适合快速实验不同文本分类模型(包括预训练语言模型)。
- 描述: Hugging Face 的
-
Chinese NER/情感分析数据集 (需搜索特定来源)
- 描述: 如 People's Daily NER 语料库(中文命名实体识别)、ChnSentiCorp(中文情感分析语料)、Baidu ERNIE 等项目中发布的特定中文语料。
- 任务: 中文命名实体识别 (NER)、情感分析等。
- 获取: 需通过 GitHub、GitEE、AI Studio 或相关研究论文提供的链接搜索下载。
- 特点: 对中文 NLP 实战非常重要,但获取需要稍费周折。
三、 推荐系统数据集
-
MovieLens
- 描述: 最著名的电影评分数据集。常用版本有:
- MovieLens 100K: 100,000 条来自 1000 名用户对 1700 部电影的评分。
- MovieLens 1M: 1百万条评分。
- MovieLens 25M/27M: 超大规模。
- 任务: 推荐系统(评分预测、Top-N推荐)
- 获取: 官网下载。
- 特点: 推荐系统领域的金标准数据集,适合学习协同过滤(基于用户、基于物品)、矩阵分解、深度学习推荐模型等。
- 描述: 最著名的电影评分数据集。常用版本有:
-
Amazon Product Data
- 描述: 亚马逊公开的商品评论和元数据(如商品标题、描述、类别、评分、评论文本、时间戳等)。数据量庞大,可按需选择子集(如特定类别)。
- 任务: 推荐系统、情感分析、评分预测、类别预测等。
- 获取: Amazon 官方网页提供下载链接(需按说明填写表格或遵守协议)。
- 特点: 真实且大规模,包含丰富的文本信息。
四、 时间序列数据集
-
Air Passengers (航空公司乘客数量)
- 描述: 记录了 1949 年 1 月到 1960 年 12 月共 12 年间的月度航空公司旅客总数。
- 任务: 时间序列预测
- 获取: 广泛可用,通常在时间序列库如
statsmodels演示中使用 (statsmodels.datasets.get_rdataset("AirPassengers").data),或下载CSV。 - 特点: 小但经典,有明显趋势和季节性,适合入门学习 ARIMA/SARIMA/指数平滑等传统模型。
-
NASDAQ / S&P 500 / 个股历史股价数据
- 描述: 金融市场的历史开盘价、最高价、最低价、收盘价、成交量等数据。
- 任务: 时间序列预测(股价、波动性)
- 获取: 多个金融数据平台(Yahoo Finance
yfinancePython库, Alpha Vantage, Quandl等)提供API或历史数据下载。 - 特点: 真实金融数据,但具有高噪声和不可预测性,适合高级模型(LSTM, Prophet, N-Beats)。
-
Electricity Consumption (UCI) / Household Power Consumption
- 描述: 如 UCI 的 Individual household electric power consumption Dataset 记录了单个家庭在4分钟间隔下的用电量和其他测量值(电压、功率等)。
- 任务: 时间序列预测(用电负荷预测)
- 获取: UCI ML仓库。
- 特点: 真实多变量时间序列数据,适合预测多步未来值或处理大规模序列。
五、 其他实用数据集来源
- Kaggle: 绝对首选!有海量的公开数据集(上面提到的大部分经典数据集这里都有),以及围绕这些数据集举办的竞赛,可以学习他人的优秀代码(Kernels/Notebooks)。
- UCI Machine Learning Repository: 最老牌的机器学习数据集库之一,涵盖领域极其广泛,有非常好的元数据描述。数据多为表格形式。
- Hugging Face Datasets: 尤其擅长文本、语音和视觉数据集,API 极其便捷,数据通常已处理好或易于流式加载。查找特定任务的 SOTA 数据集常用此库。
- Scikit-learn (
sklearn.datasets): 内置了许多经典小规模数据集(如 Iris, Wine, Diabetes, California Housing),方便快速实验。 - TensorFlow Datasets (
tfds) / PyTorch 内置数据: 方便加载常用基准数据集(如 MNIST, Fashion-MNIST, CIFAR, IMDB)。 - 谷歌 Dataset Search: 类似网页搜索引擎,专门搜索公开数据集。
- 政府开放数据平台: 中国国家统计局、地方政务数据开放平台(如北京市、上海市政务数据开放网)、美国 Data.gov、欧盟 Open Data Portal 等,提供社会经济、交通、环境等真实数据。
- 天池(阿里云) / AI Studio(百度): 国内知名的大数据竞赛平台,附带有大量高质量数据集(中文居多)。
- Awesome Public Datasets (GitHub): 一个整理了多个领域优质公开数据集链接的 GitHub Repo。
实战选择建议
- 根据任务选数据: 想练分类?选 Iris, Wine, Breast Cancer, MNIST/Fashion-MNIST, IMDB, 20Newsgroups。想练回归?选 Boston Housing (或其替代品), California Housing。想练图像?选 MNIST, Fashion-MNIST, CIFAR。想练文本?选 IMDB, 20Newsgroups, AG News。
- 由简入难: 从小数据集(如 Iris, Boston Housing)开始掌握算法和流程,再过渡到复杂些的数据集(Breast Cancer, CIFAR-10, IMDB)。
- 尝试不同类型: 既要接触表格数据,也要尝试图像、文本、时间序列数据。
- Kaggle & Hugging Face Datasets 是你的好朋友: 找数据、学代码、看方案的不二之选。
- 注重数据探索和预处理: 实战的核心步骤往往是理解数据(EDA)和清洗/转换数据(Preprocessing)。不要期望原始数据拿过来就能完美训练模型。
希望这份中文版机器学习实战数据集列表能帮助到你!开始动手实践吧!
《机器学习实战-基于Sophon平台的机器学习理论与实践》现已问世
本书由星环科技人工智能平台研发团队合著,凝聚了来自算法专家及一线软件工程专家的实战经验。相比于国内学术人员的教材或国外译注,本教材案例来自本土真实的业界实践,更加贴合国内机器
2020-01-16 08:11:00
7天热门专题
换一换
换一换
- 如何分清usb-c和type-c的区别
- 中国芯片现状怎样?芯片发展分析
- vga接口接线图及vga接口定义
- 芯片的工作原理是什么?
- 华为harmonyos是什么意思,看懂鸿蒙OS系统!
- 什么是蓝牙?它的主要作用是什么?
- ssd是什么意思
- 汽车电子包含哪些领域?
- TWS蓝牙耳机是什么意思?你真的了解吗
- 什么是单片机?有什么用?
- 升压电路图汇总解析
- plc的工作原理是什么?
- 再次免费公开一肖一吗
- 充电桩一般是如何收费的?有哪些收费标准?
- ADC是什么?高精度ADC是什么意思?
- EDA是什么?有什么作用?
- dtmb信号覆盖城市查询
- 中科院研发成功2nm光刻机
- 苹果手机哪几个支持无线充电的?
- type-c四根线接法图解
- 华为芯片为什么受制于美国?
- 怎样挑选路由器?
- 元宇宙概念股龙头一览
- 锂电池和铅酸电池哪个好?
- 什么是场效应管?它的作用是什么?
- 如何进行编码器的正确接线?接线方法介绍
- 虚短与虚断的概念介绍及区别
- 晶振的作用是什么?
- 大疆无人机的价格贵吗?大约在什么价位?
- 苹果nfc功能怎么复制门禁卡
- 单片机和嵌入式的区别是什么
- amoled屏幕和oled区别
- 复位电路的原理及作用
- BLDC电机技术分析
- dsp是什么意思?有什么作用?
- 苹果无线充电器怎么使用?
- iphone13promax电池容量是多少毫安
- 芯片的组成材料有什么
- 特斯拉充电桩充电是如何收费的?收费标准是什么?
- 直流电机驱动电路及原理图
- 传感器常见类型有哪些?
- 自举电路图
- 通讯隔离作用
- 苹果笔记本macbookpro18款与19款区别
- 新斯的指纹芯片供哪些客户
- 伺服电机是如何进行工作的?它的原理是什么?
- 无人机价钱多少?为什么说无人机烧钱?
- 以太网VPN技术概述
- 手机nfc功能打开好还是关闭好
- 十大公认音质好的无线蓝牙耳机