paint-brush
适用于搭建工具培训模式的 16 个最合适 Sklearn 大数据集 经途@datasets
28,945 讀數
28,945 讀數

用于构建机器学习模型的 16 个最佳 Sklearn 数据集

太長; 讀書

Sklearn 是一个构建在 SciPy 之上的用于机器学习的 Python 模块。由于其广泛的算法和易用性,它是独一无二的。数据为机器学习算法和 scikit-learn 提供动力。 Sklearn 提供高质量的数据集,被研究人员、从业者和爱好者广泛使用。
featured image - 用于构建机器学习模型的 16 个最佳 Sklearn 数据集
Open Datasets Compiled by HackerNoon HackerNoon profile picture

数据为机器学习算法和 scikit-learn 或学习提供被研究人员、从业者和爱好者广泛使用的高质量数据集。 Scikit-learn (sklearn) 是一个构建在 SciPy 之上的用于机器学习的 Python 模块。由于其广泛的算法、易用性和与其他 Python 库的集成,它是独一无二的。

什么是“Sklearn 数据集”?

Sklearn 数据集作为 scikit-learn 的一部分包含在内(学习) 库,因此它们与库一起预装。因此,您可以轻松访问和加载这些数据集,而无需单独下载它们。


要应用既定数据信息资料集,您只需从 sklearn.datasets 摸块使用它并传参尽可能的指数函数将数据信息资料添加到您的源程序中。


这类数值集一般说来过程预净化处理并就能够使用的,这为可以耐压有所差异系统学习成绩对模型和神经网络算法的数值从业者大大节省了时和气力。

Sklearn 库中的完整数据集列表

  1. 鸢尾花
  2. 糖尿病
  3. 位数
  4. 林内鲁德
  5. 葡萄酒
  6. 乳腺癌威斯康星州
  7. 波士顿住房
  8. 奥利维蒂面孔
  9. 加州住房
  10. MNIST
  11. 时尚-MNIST
  12. 分类
  13. 回归
  14. make_blobs
  15. make_moons 和 make_circles
  16. Make_sparse_coded_signal

预装(玩具)Sklearn 数据集

1.

该信息报告集涉及到 150 朵鸢尾花的萼片段长宽比、萼片尺寸、花蕾段长宽比和花蕾尺寸的预估值,这种鸢尾花是指 3 个区别的植物物种:setosa、versicolor 和 virginica。鸢尾花信息报告集有 150 行和 5 列,手机存储为一些信息报告框,之中一列代理每束花的不一样。


变量包括:


  • Sepal.Length - sepal.length 表示萼片的长度(以厘米为单位)。
  • Sepal.Width - sepal.width 表示萼片的宽度(以厘米为单位)。
  • Petal.Length - petal.length 表示花瓣的长度(以厘米为单位)。
  • Species - species 变量表示鸢尾花的种类,具有三个可能的值:setosa、versicolor 和 virginica。


您可以使用 sklearn.datasets 模块中的load_iris函数直接从 sklearn 加载鸢尾花数据集。


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


使用 sklearn 加载 Iris 数据集的代码。从...获得 2023 年 3 月 27 日。

2.

这个 sklearn 数据集包含 442 名糖尿病患者的信息,包括人口统计和临床测量:

  • 年龄
  • 性别
  • 体重指数 (BMI)
  • 平均血压
  • 六种血清测量值(例如总胆固醇、低密度脂蛋白 (LDL) 胆固醇、高密度脂蛋白 (HDL) 胆固醇)。
  • 糖尿病疾病进展 (HbA1c) 的定量测量。


可以使用 sklearn.datasets 模块中的load_diabetes()函数加载糖尿病数据集。


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


使用 sklearn 加载糖尿病数据集的代码。从...获得 2023 年 3 月 28 日。

3.

这一 sklearn 的数据资料集算起 0 到 9 的手写板的数据的结合,贮存为灰度图象。它一共包括 1797 个样表量,每台样表量也是其中一个样子为 (8,8) 的二维数组。 digits sklearn 的数据资料集含有 64 个变量值(或特性),匹配于每台的数据图象中的 64 个象素。


可以使用 sklearn.datasets 模块中的load_digits()函数加载 Digits 数据集。


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


使用 sklearn 加载数字数据集的代码。从...获得 2023 年 3 月 29 日。


4.

Linnerud 数据报告显示集富含 20 名事业足球篮球运动员会的健康和身理測量数据报告显示。


数据集包括以下变量:


  • 三个体育锻炼变量 - 引体向上、仰卧起坐和开合跳。
  • 三个生理测量变量——脉搏、收缩压和舒张压。


使用 sklearn 在 Python 中加载 Linnerud 数据集:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


使用 sklearn 加载 linnerud 数据集的代码。从...获得 2023 年 3 月 27 日。

5.

此 sklearn 资料集含有对荷兰独特国家种直的常见冬枣款式酒开展电化学定量分析的结果显示,以将常见冬枣款式酒总类为正规的款式。


数据集中的一些变量:


  • 酒精
  • 苹果酸
  • 灰的碱度
  • 总酚
  • 类黄酮


可以使用 sklearn.datasets 模块中的load_wine()函数加载 Wine 数据集。


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


使用 sklearn 加载葡萄酒质量数据集的代码。从...获得 2023 年 3 月 28 日。

6.

该 sklearn 数剧库集是指管于乳房增生癌良恶肉瘤的资讯,起初由 William H. Wolberg 医学博士组建。组建该数剧库集是为了能让好处研究分析员和仪器读书资格证者将良恶肉瘤分级为恶性肿瘤(癌性)或良恶(非癌性)。


该数据集中包含的一些变量:


  • 身份证号
  • 诊断(M = 恶性,B = 良性)。
  • 半径(从中心到周长上各点的平均距离)。
  • 纹理(灰度值的标准偏差)。
  • 周长
  • 区域
  • 平滑度(半径长度的局部变化)。
  • 紧凑性(周长 ^2 / 面积 - 1.0)。
  • 凹度(轮廓凹陷部分的严重程度)。
  • 凹点(轮廓凹陷部分的数量)。
  • 对称
  • 分形维数(“海岸线近似”- 1)。


您可以使用 sklearn.datasets 模块中的load_breast_cancer函数直接从 sklearn 加载 Breast Cancer Wisconsin 数据集。


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


使用 sklearn 加载乳腺癌威斯康星数据集的代码。从...获得 2023 年 3 月 28 日。


乳腺癌威斯康星数据集

真实世界的 Sklearn 数据集

情况社会地球的 sklearn 资料集应用场景情况社会地球的一些问题,常采用用到 Python 中的 sklearn 库練習和应力测试系统学校神经网络算法和技艺。

7.

波士顿自建房资料集构成马萨诸塞州波士顿位置的自建房资料。它大有约 506 行和 14 列资料。


数据集中的一些变量包括:


  • CRIM - 城镇人均犯罪率。
  • ZN - 划为超过 25,000 平方英尺地块的住宅用地比例。
  • INDUS - 每个城镇非零售商业英亩的比例。
  • CHAS - 查尔斯河虚拟变量(= 1 如果区域边界河流;否则为 0)。
  • NOX - 一氧化氮浓度(千万分之一)。
  • RM - 每个住宅的平均房间数。
  • AGE - 1940 年之前建造的自住单元的比例。
  • DIS - 到波士顿五个就业中心的加权距离。
  • RAD - 径向高速公路可达性指数。
  • TAX - 每 10,000 美元的全值财产税税率。
  • PTRATIO - 按城镇划分的师生比例。
  • B - 1000(Bk - 0.63)^2 其中 -Bk 是城镇黑人的比例。
  • LSTAT - 人口地位较低的百分比。
  • MEDV - 1000 美元的自住房屋的中值。


您可以使用 sklearn.datasets 模块中的load_boston函数直接从 scikit-learn 加载 Boston Housing 数据集。


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


使用 sklearn 加载波士顿住房数据集的代码。从...获得 2023 年 3 月 29 日。

8.

Olivetti Faces 数据表格集是 1992 年 4 月至 1994 年 4 月其间在 AT&T 科学实验室设计制作的面部灰度图相的整合。它涉及到 10 一个人的 400 张图相,每一个有 40 张以有所差异弧度和有所差异太阳光照前提制作的图相。


您可以使用数据集模块中的fetch_olivetti_faces函数在 sklearn 中加载 Olivetti Faces 数据集。


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


使用 sklearn 加载 Olivetti Faces 数据集的代码。从...获得 2023 年 3 月 29 日。

9.

该 sklearn 数据统计集蕴含相关的室内中值的短信,或者加利福尼亚州城市人口核查区的的特性。它还涉及到 20,640 个经典案例和 8 个特征描述。


数据集中的一些变量:


  • MedInc - 收入中位数。
  • HouseAge - 街区房屋的平均年龄。
  • AveRooms - 每个家庭的平均房间数。
  • AveBedrms - 每个家庭的平均卧室数。
  • 人口 - 区块人口。
  • AveOccup - 平均家庭入住率。
  • 纬度 - 以十进制表示的块的纬度。
  • 经度 - 以十进制表示的块的经度。


您可以使用 sklearn 中的fetch_california_housing函数加载加州住房数据集。


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


使用 sklearn 加载加州住房数据集的代码。从...获得 2023 年 3 月 29 日。

10.

MNIST 数据显示集很受祝贺,广运用作机器设备学习成绩和统计机听觉范围。它由 70,000 张手写字号码 0-9 的灰度画像組成,但其中 60,000 张画像用作练习,10,000 张画像用作各种测试。好几张图的强弱为 28x28 相素,并全是个相对应的标签贴来透露它代表着的是那些号码。


您可以使用以下代码从 sklearn 加载 MNIST 数据集:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


注意:MNIST 数据集是 Digits 数据集的一个子集。


使用 sklearn 加载 MNIST 数据集的代码。从...获得 2023 年 3 月 30 日。


11.

Fashion MNIST 资料集由 Zalando Research 创造,广泛用于代换原来 MNIST 资料集。 Fashion MNIST 资料集由 70,000 张灰度图象(练集 60,000 张和测验集 10,000 张)分为。


图片文字长宽比为 28x28 手机像素,意味 10 种有差异 类的女成衣,包含 T 恤/长裤、运行裤子、套头衫、连长裙、风衣外套、凉鞋、T恤、运行鞋、包和踝靴。它一样于原史 MNIST 统计数据集,但可能女成衣活动的更广泛性和多样化性高,故此划分类别目标任务更高的主动性。


您可以使用 fetch_openml 函数加载此 sklearn 数据集。


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


使用 sklearn 加载 Fashion MNIST 数据集的代码。取自 __ 2023 年 3 月 30 日。

生成的 Sklearn 数据集

转换成的 sklearn 数据源报告集是制作而成数据源报告集,选用 Python 中的 sklearn 库转换成。二者用在测评、基点测评和激发设备学习的贝叶斯/沙盘模型。

12.

此方程导出具特定的数量的样本量、症状和短信症状的随时 n 类划分数据报告集。


下面是一个示例代码,用于生成包含 100 个样本、5 个特征和 3 个类的 sklearn 数据集:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


此代碼出现某个涉及到 100 个子样本和 5 个特性的动态数据集,表中涉及到 3 个类型和 3 个信息查询特性。以外特性将是冗余系统的或噪音。


使用 sklearn 加载 make_classification 数据集的代码。从...获得 2023 年 3 月 30 日。

13.

此函数值形成具备设定次数的样板、表现和燥音的随意再战数据资料集。


下面是一个示例代码,用于生成具有 100 个样本、5 个特征和 0.1 噪声级别的 sklearn 数据集:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


此源代码转成1个构成 100 个样例和 5 个表现形式的资料集,躁音级为 0.1。个人目标全局数组 y 将是1个联续全局数组。


使用 sklearn 加载 make_regression 数据集的代码。从...获得 2023 年 3 月 30 日。

14.

此数学函数生产都具有制定量的样板和簇的自由数据统计集。


下面是生成包含 100 个样本和 3 个集群的 sklearn 数据集的示例代码:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


此码绘制一两个带有 100 个模板和 2 个特色(x 和 y 方位角)的参数集,在其中 3 个簇集中在js随机数地点,但会没能躁声。


使用 sklearn 加载 make_blobs 数据集的代码。从...获得 2023 年 3 月 30 日。

15.

等涵数添加具有着非直线交界的数据库集,能作于试验非直线分类别java算法。


下面是加载 make_moons 数据集的示例代码:


从 sklearn.datasets 导到 make_moons X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)


此代碼转成俩个包括 1000 个模本和 2 个特殊性(x 和 y 地理坐标)的数值集,俩个类两者含有非线型界限,有时候向数值中填加了 0.2 规定差的高斯躁音。


使用 sklearn 加载 make_moons 数据集的代码。从...获得 2023 年 3 月 30 日。


下面是生成和加载 make_circles 数据集的示例代码:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


使用 sklearn 加载 make_circles 数据集的代码。从...获得 2023 年 3 月 30 日。

16.

此函数值导出一种稀松识别码信息数据报告集,可以选择于检验压解调节器图像匹配。


这是加载此 sklearn 数据集的示例代码:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


此代码生成具有 100 个样本、50 个特征和 10 个原子的稀疏编码信号数据集。


使用 sklearn 加载 make_sparse_coded_signal 数据集的代码。从...获得 2023 年 3 月 30 日。


Sklearn 数据集的常见用例

预装(玩具)Sklearn 数据集

- 此 sklearn 数据集通常用于分类任务,并用作测试分类算法的基准数据集。


- 该数据集包含有关糖尿病患者的医疗信息,用于医疗保健分析中的分类和回归任务。


- 这个 sklearn 数据集包含手写数字的图像,通常用于图像分类和模式识别任务。


- 该数据集包含 20 名运动员的体能和医疗数据,常用于多元回归分析。


- 此 sklearn 数据集包含葡萄酒的化学分析,通常用于分类和聚类任务。


- 此数据集包含有关乳腺癌患者的医疗信息,通常用于医疗保健分析中的分类任务。

真实世界的 Sklearn 数据集

- 此 sklearn 数据集包含有关波士顿住房的信息,通常用于回归任务。


- 该数据集包含人脸的灰度图像,通常用于图像分类和人脸识别任务。


- 此 sklearn 数据集包含有关加利福尼亚州住房的信息,通常用于回归任务。


- 该数据集包含手写数字图像,通常用于图像分类和模式识别任务。


- 此 sklearn 数据集包含服装项目的图像,通常用于图像分类和模式识别任务。

生成的 Sklearn 数据集

- 该数据集是为二分类和多分类任务随机生成的数据集。


- 该数据集是为回归任务随机生成的数据集。


- 这个 sklearn 数据集是一个随机生成的聚类任务数据集。


- 这些数据集是随机生成的分类任务数据集,通常用于测试非线性分类器。


- 该数据集是随机生成的数据集,用于信号处理中的稀疏编码任务。

最后的想法

Sklearn 的资料集为开拓人和研究探讨人带来了半个种不方便的方法步骤来测验和评估报告格式服务器学会绘图,而不需手動获得和预处里的资料。


植物的根也可供某些人勉费下截和使用的。

本文的主图是使用提示“虹膜数据集”通过HackerNoon 的 AI 稳定扩散模型生成的。


更多数据集列表:

  1. Excel 数据集
  2. 凯拉斯数据集
  3. R 数据集


바카라사이트 바카라사이트 온라인바카라