29,017 Lesungen

Die 16 besten Sklearn-Datensätze zum Erstellen von Modellen für maschinelles Lernen

von Open Datasets Compiled by HackerNoon12m2023/04/15

Zu lang; Lesen

Sklearn ist ein Python-Modul für maschinelles Lernen, das auf SciPy aufbaut. Es ist einzigartig aufgrund seiner breiten Palette an Algorithmen und seiner Benutzerfreundlichkeit. Daten unterstützen Algorithmen für maschinelles Lernen und Scikit-Learn. Sklearn bietet qualitativ hochwertige Datensätze, die von Forschern, Praktikern und Enthusiasten häufig verwendet werden.

featured image - Die 16 besten Sklearn-Datensätze zum Erstellen von Modellen für maschinelles Lernen

‘Iris dataset’ Image created by HackerNoon AI Image Generator

Daten unterstützen Algorithmen für maschinelles Lernen und Scikit-Learn oder sklearn bietet qualitativ hochwertige Datensätze, die von Forschern, Praktikern und Enthusiasten häufig verwendet werden. Scikit-learn (sklearn) ist ein Python-Modul für maschinelles Lernen, das auf SciPy aufbaut. Es ist einzigartig aufgrund seiner breiten Palette an Algorithmen, seiner Benutzerfreundlichkeit und der Integration mit anderen Python-Bibliotheken.

Was sind „Sklearn-Datensätze“?

Sklearn-Datensätze sind als Teil von scikit-learn enthalten ( sklearn )-Bibliothek, sodass sie mit der Bibliothek vorinstalliert sind. Dadurch können Sie problemlos auf diese Datensätze zugreifen und sie laden, ohne sie separat herunterladen zu müssen.

Um einen bestimmten Datensatz zu verwenden, können Sie ihn einfach aus dem Modul sklearn.datasets importieren und die entsprechende Funktion aufrufen, um die Daten in Ihr Programm zu laden.

Diese Datensätze sind in der Regel vorverarbeitet und gebrauchsfertig, was Datenpraktikern, die mit verschiedenen Modellen und Algorithmen für maschinelles Lernen experimentieren müssen, Zeit und Mühe spart.

Vollständige Liste der Datensätze in der Sklearn-Bibliothek

Iris
Diabetes
Ziffern
Linnerud
Wein
Brustkrebs Wisconsin
Boston Housing
Olivetti-Gesichter
Wohnen in Kalifornien
MNIST
Mode-MNIST
make_classification
make_regression
make_blobs
make_moons und make_circles
Make_sparse_coded_signal

Vorinstallierte (Spielzeug-)Sklearn-Datensätze

1.

Dieser Datensatz umfasst Messungen der Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite von 150 Irisblüten, die zu drei verschiedenen Arten gehören: Setosa, Versicolor und Virginica. Der Iris-Datensatz besteht aus 150 Zeilen und 5 Spalten, die als Datenrahmen gespeichert werden, einschließlich einer Spalte für die Art jeder Blume.

Zu den Variablen gehören:

Sepal.Length – Die sepal.length gibt die Länge des Kelchblatts in Zentimetern an.
Sepal.Width – Die sepal.width gibt die Breite des Kelchblatts in Zentimetern an.
Petal.Length – Die petal.length gibt die Länge des Blütenblatts in Zentimetern an.
Art – Die Artvariable stellt die Art der Irisblume mit drei möglichen Werten dar: Setosa, Versicolor und Virginica.

Sie können den Iris-Datensatz direkt aus sklearn laden, indem Sie die Funktion „load_iris“ aus dem Modul „sklearn.datasets“ verwenden.

 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())

Code zum Laden des Iris-Datensatzes mit sklearn. Abgerufen von am 27.3.2023.

2.

Dieser Sklearn-Datensatz enthält Informationen zu 442 Patienten mit Diabetes, einschließlich demografischer und klinischer Messungen:

Alter
Sex
Body-Mass-Index (BMI)
Durchschnittlicher Blutdruck
Sechs Blutserummessungen (z. B. Gesamtcholesterin, LDL-Cholesterin (Low Density Lipoprotein), HDL-Cholesterin (High Density Lipoprotein).
Ein quantitatives Maß für das Fortschreiten der Diabetes-Erkrankung (HbA1c).

Der Diabetes-Datensatz kann mit der Funktion „load_diabetes()“ aus dem Modul „sklearn.datasets“ geladen werden.

 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())

Code zum Laden des Diabetes-Datensatzes mit sklearn. Abgerufen von am 28.3.2023.

3.

Dieser Sklearn-Datensatz ist eine Sammlung handgeschriebener Ziffern von 0 bis 9, die als Graustufenbilder gespeichert sind. Es enthält insgesamt 1797 Proben, wobei jede Probe ein 2D-Array der Form (8,8) ist. Der Ziffern-Sklearn-Datensatz enthält 64 Variablen (oder Merkmale), die den 64 Pixeln in jedem Ziffernbild entsprechen.

Der Digits-Datensatz kann mit der Funktion „load_digits()“ aus dem Modul „sklearn.datasets“ geladen werden.

 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)

Code zum Laden des Digits-Datensatzes mit sklearn. Abgerufen von am 29.3.2023.

4.

Der Linnerud-Datensatz enthält körperliche und physiologische Messungen von 20 Profisportlern.

Der Datensatz enthält die folgenden Variablen:

Drei körperliche Übungsvariablen: Klimmzüge, Sit-ups und Jumping Jacks.
Drei physiologische Messgrößen – Puls, systolischer Blutdruck und diastolischer Blutdruck.

So laden Sie den Linnerud-Datensatz in Python mit sklearn:

 from sklearn.datasets import load_linnerud linnerud = load_linnerud()

Code zum Laden des Linnerud-Datensatzes mit sklearn. Abgerufen von am 27.3.2023.

5.

Dieser Sklearn-Datensatz enthält die Ergebnisse chemischer Analysen von Weinen, die in einem bestimmten Gebiet Italiens angebaut werden, um die Weine in ihre richtigen Sorten zu klassifizieren.

Einige der Variablen im Datensatz:

Alkohol
Äpfelsäure
Asche
Alkalität der Asche
Magnesium
Gesamtphenole
Flavanoide

Der Wine-Datensatz kann mit der Funktion „load_wine()“ aus dem Modul sklearn.datasets geladen werden.

 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names

Code zum Laden des Weinqualitätsdatensatzes mit sklearn. Abgerufen von am 28.3.2023.

6.

Dieser Sklearn-Datensatz besteht aus Informationen über Brustkrebstumoren und wurde ursprünglich von Dr. William H. Wolberg erstellt. Der Datensatz wurde erstellt, um Forschern und Praktikern des maschinellen Lernens dabei zu helfen, Tumore entweder als bösartig (krebsartig) oder gutartig (nicht krebsartig) zu klassifizieren.

Einige der in diesem Datensatz enthaltenen Variablen:

ID-Nummer
Diagnose (M = bösartig, B = gutartig).
Radius (der Mittelwert der Abstände vom Mittelpunkt zu Punkten auf dem Umfang).
Textur (die Standardabweichung der Graustufenwerte).
Umfang
Bereich
Glätte (die lokale Variation der Radiuslängen).
Kompaktheit (Umfang^2 / Fläche - 1,0).
Konkavität (der Schweregrad der konkaven Teile der Kontur).
Konkave Punkte (die Anzahl der konkaven Teile der Kontur).
Symmetrie
Fraktale Dimension („Küstennäherung“ – 1).

Sie können den Datensatz „Breast Cancer Wisconsin“ direkt aus sklearn laden, indem Sie die Funktion „ load_breast_cancer“ aus dem Modul „sklearn.datasets“ verwenden.

 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())

Code zum Laden des Brustkrebs-Wisconsin-Datensatzes mit sklearn. Abgerufen von am 28.3.2023.

Sklearn-Datensätze aus der realen Welt

Reale Sklearn-Datensätze basieren auf realen Problemen und werden häufig zum Üben und Experimentieren mit Algorithmen und Techniken für maschinelles Lernen mithilfe der Sklearn-Bibliothek in Python verwendet.

7.

Der Boston Housing-Datensatz besteht aus Informationen zum Wohnungsbau in der Gegend von Boston, Massachusetts. Es verfügt über etwa 506 Zeilen und 14 Datenspalten.

Zu den Variablen im Datensatz gehören:

CRIM – Pro-Kopf-Kriminalitätsrate nach Stadt.
ZN – Der Anteil des Wohngrundstücks, das für Grundstücke über 25.000 Quadratfuß in Zonen ausgewiesen ist.
INDUS – Der Anteil der Nicht-Einzelhandelsflächen pro Stadt.
CHAS – Charles River-Dummy-Variable (= 1, wenn das Gebiet an den Fluss grenzt; andernfalls 0).
NOX – Die Stickoxidkonzentration (Teile pro 10 Millionen).
RM – Die durchschnittliche Anzahl der Zimmer pro Wohnung.
ALTER – Der Anteil der Eigentumswohnungen, die vor 1940 gebaut wurden.
DIS – Die gewichteten Entfernungen zu fünf Bostoner Arbeitsvermittlungszentren.
RAD – Der Index der Zugänglichkeit zu Radialstraßen.
STEUER – Der volle Grundsteuersatz pro 10.000 US-Dollar.
PTRATIO – Das Schüler-Lehrer-Verhältnis nach Städten.
B - 1000(Bk - 0,63)^2 wobei -Bk der Anteil der Schwarzen pro Stadt ist.
LSTAT – Der prozentuale niedrigere Status der Bevölkerung.
MEDV – Der mittlere Wert von Eigenheimen in 1.000 US-Dollar.

Sie können den Boston Housing-Datensatz direkt aus scikit-learn laden, indem Sie die Funktion „load_boston“ aus dem Modul „sklearn.datasets“ verwenden.

 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())

Code zum Laden des Boston Housing-Datensatzes mit sklearn. Abgerufen von am 29.3.2023.

8.

Der Olivetti Faces-Datensatz ist eine Sammlung von Graustufenbildern menschlicher Gesichter, die zwischen April 1992 und April 1994 in den AT&T Laboratories aufgenommen wurden. Es enthält 400 Bilder von 10 Personen, wobei für jede Person 40 Bilder aus unterschiedlichen Winkeln und bei unterschiedlichen Lichtverhältnissen aufgenommen wurden.

Sie können den Olivetti Faces-Datensatz in sklearn laden, indem Sie die Funktion fetch_olivetti_faces aus dem Datasets-Modul verwenden.

 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target

Code zum Laden des Olivetti Faces-Datensatzes mit sklearn. Abgerufen von am 29.3.2023.

9.

Dieser Sklearn-Datensatz enthält Informationen zu durchschnittlichen Hauswerten sowie Attribute für Volkszählungsbezirke in Kalifornien. Es umfasst außerdem 20.640 Instanzen und 8 Funktionen.

Einige der Variablen im Datensatz:

MedInc – Das mittlere Einkommen im Block.
HouseAge – Das Durchschnittsalter der Häuser im Block.
AveRooms – Die durchschnittliche Anzahl der Zimmer pro Haushalt.
AveBedrms – Die durchschnittliche Anzahl der Schlafzimmer pro Haushalt.
Bevölkerung – Die Blockbevölkerung.
AveOccup – Die durchschnittliche Haushaltsbelegung.
Breitengrad – Der Breitengrad des Blocks in Dezimalgrad.
Längengrad – Der Längengrad des Blocks in Dezimalgrad.

Sie können den Datensatz „California Housing“ mit der Funktion fetch_california_housing von sklearn laden.

 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target

Code zum Laden des California Housing-Datensatzes mit sklearn. Abgerufen von am 29.3.2023.

10.

Der MNIST-Datensatz ist beliebt und wird häufig in den Bereichen maschinelles Lernen und Computer Vision verwendet. Es besteht aus 70.000 Graustufenbildern der handgeschriebenen Ziffern 0–9, davon 60.000 Bilder zum Training und 10.000 zum Testen. Jedes Bild ist 28 x 28 Pixel groß und verfügt über eine entsprechende Beschriftung, die angibt, welche Ziffern es darstellt.

Sie können den MNIST-Datensatz von sklearn mit dem folgenden Code laden:

 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')

Hinweis: Der MNIST-Datensatz ist eine Teilmenge des Digits-Datensatzes.

Code zum Laden des MNIST-Datensatzes mit sklearn. Abgerufen von am 30.3.2023.

11.

Der Fashion MNIST-Datensatz wurde von Zalando Research als Ersatz für den ursprünglichen MNIST-Datensatz erstellt. Der Fashion-MNIST-Datensatz besteht aus 70.000 Graustufenbildern (Trainingssatz mit 60.000 und Testsatz mit 10.000) von Kleidungsstücken.

Die Bilder haben eine Größe von 28 x 28 Pixel und repräsentieren 10 verschiedene Klassen von Kleidungsstücken, darunter T-Shirts/Tops, Hosen, Pullover, Kleider, Mäntel, Sandalen, Hemden, Turnschuhe, Taschen und Stiefeletten. Er ähnelt dem ursprünglichen MNIST-Datensatz, weist jedoch aufgrund der größeren Komplexität und Vielfalt der Kleidungsstücke anspruchsvollere Klassifizierungsaufgaben auf.

Sie können diesen Sklearn-Datensatz mit der Funktion fetch_openml laden.

 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')

Code zum Laden des Fashion MNIST-Datensatzes mit sklearn. Abgerufen von__ __ am 30.3.2023.

Generierte Sklearn-Datensätze

Generierte Sklearn-Datensätze sind synthetische Datensätze, die mithilfe der Sklearn-Bibliothek in Python generiert werden. Sie werden zum Testen, Benchmarking und Entwickeln von Algorithmen/Modellen für maschinelles Lernen verwendet.

12.

Diese Funktion generiert einen zufälligen n-Klassen-Klassifizierungsdatensatz mit einer angegebenen Anzahl von Stichproben, Merkmalen und informativen Merkmalen.

Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Beispielen, 5 Features und 3 Klassen:

 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

Dieser Code generiert einen Datensatz mit 100 Beispielen und 5 Merkmalen, mit 3 Klassen und 3 informativen Merkmalen. Die übrigen Funktionen sind redundant oder rauschen.

Code zum Laden des make_classification-Datensatzes mit sklearn. Abgerufen von am 30.3.2023.

13.

Diese Funktion generiert einen zufälligen Regressionsdatensatz mit einer angegebenen Anzahl von Stichproben, Merkmalen und Rauschen.

Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Beispielen, 5 Funktionen und einem Rauschpegel von 0,1:

 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

Dieser Code generiert einen Datensatz mit 100 Beispielen und 5 Merkmalen mit einem Rauschpegel von 0,1. Die Zielvariable y wird eine kontinuierliche Variable sein.

Code zum Laden des make_regression-Datensatzes mit sklearn. Abgerufen von am 30.3.2023.

14.

Diese Funktion generiert einen Zufallsdatensatz mit einer angegebenen Anzahl von Stichproben und Clustern.

Hier ist ein Beispielcode zum Generieren dieses Sklearn-Datensatzes mit 100 Stichproben und 3 Clustern:

 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)

Dieser Code generiert einen Datensatz mit 100 Stichproben und 2 Merkmalen (X- und Y-Koordinaten), mit 3 Clustern, die an zufälligen Orten zentriert sind, und ohne Rauschen.

Code zum Laden des make_blobs-Datensatzes mit sklearn. Abgerufen von am 30.3.2023.

15. Und

Diese Funktionen generieren Datensätze mit nichtlinearen Grenzen, die zum Testen nichtlinearer Klassifizierungsalgorithmen nützlich sind.

Hier ist ein Beispielcode zum Laden des make_moons-Datensatzes:

aus sklearn.datasets importiere make_moons X, y = make_moons(n_samples=1000, Noise=0,2, random_state=42)

Dieser Code generiert einen Datensatz mit 1000 Stichproben und 2 Merkmalen (x- und y-Koordinaten) mit einer nichtlinearen Grenze zwischen den beiden Klassen und mit 0,2 Standardabweichungen des Gaußschen Rauschens, die zu den Daten hinzugefügt werden.

Code zum Laden des make_moons-Datensatzes mit sklearn. Abgerufen von am 30.3.2023.

Hier ist ein Beispielcode zum Generieren und Laden des make_circles-Datensatzes:

 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

Code zum Laden des make_circles-Datensatzes mit sklearn. Abgerufen von am 30.3.2023.

16.

Diese Funktion generiert einen spärlich codierten Signaldatensatz, der zum Testen von Kompressionserfassungsalgorithmen nützlich ist.

Hier ist ein Beispielcode zum Laden dieses Sklearn-Datensatzes:

 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

Dieser Code generiert einen spärlich codierten Signaldatensatz mit 100 Proben, 50 Merkmalen und 10 Atomen.

Code zum Laden des make_sparse_coded_signal-Datensatzes mit sklearn. Abgerufen von am 30.3.2023.

Häufige Anwendungsfälle für Sklearn-Datensätze

Vorinstallierte (Spielzeug-)Sklearn-Datensätze

– Dieser Sklearn-Datensatz wird häufig für Klassifizierungsaufgaben verwendet und dient als Benchmark-Datensatz zum Testen von Klassifizierungsalgorithmen.

– Dieser Datensatz enthält medizinische Informationen über Patienten mit Diabetes und wird für Klassifizierungs- und Regressionsaufgaben in der Gesundheitsanalytik verwendet.

– Dieser Sklearn-Datensatz enthält Bilder handgeschriebener Ziffern und wird häufig für Bildklassifizierungs- und Mustererkennungsaufgaben verwendet.

– Dieser Datensatz enthält körperliche Fitness und medizinische Daten von 20 Sportlern und wird häufig für multivariate Regressionsanalysen verwendet.

– Dieser Sklearn-Datensatz enthält chemische Analysen von Weinen und wird häufig für Klassifizierungs- und Clustering-Aufgaben verwendet.

– Dieser Datensatz enthält medizinische Informationen über Brustkrebspatientinnen und wird häufig für Klassifizierungsaufgaben in der Gesundheitsanalytik verwendet.

Sklearn-Datensätze aus der realen Welt

– Dieser Sklearn-Datensatz enthält Informationen über Wohnraum in Boston und wird häufig für Regressionsaufgaben verwendet.

– Dieser Datensatz enthält Graustufenbilder von Gesichtern und wird häufig für Bildklassifizierungs- und Gesichtserkennungsaufgaben verwendet.

– Dieser Sklearn-Datensatz enthält Informationen über den Wohnungsbau in Kalifornien und wird häufig für Regressionsaufgaben verwendet.

– Dieser Datensatz enthält Bilder handgeschriebener Ziffern und wird häufig für Bildklassifizierungs- und Mustererkennungsaufgaben verwendet.

– Dieser Sklearn-Datensatz enthält Bilder von Kleidungsstücken und wird häufig für Bildklassifizierungs- und Mustererkennungsaufgaben verwendet.

Generierte Sklearn-Datensätze

– Bei diesem Datensatz handelt es sich um einen zufällig generierten Datensatz für Binär- und Mehrklassenklassifizierungsaufgaben.

- Bei diesem Datensatz handelt es sich um einen zufällig generierten Datensatz für Regressionsaufgaben.

– Dieser Sklearn-Datensatz ist ein zufällig generierter Datensatz für Clustering-Aufgaben.

Und – Bei diesen Datensätzen handelt es sich um zufällig generierte Datensätze für Klassifizierungsaufgaben, die häufig zum Testen nichtlinearer Klassifikatoren verwendet werden.

– Bei diesem Datensatz handelt es sich um einen zufällig generierten Datensatz für spärliche Codierungsaufgaben in der Signalverarbeitung.

Abschließende Gedanken

Sklearn-Datensätze bieten Entwicklern und Forschern eine bequeme Möglichkeit, Modelle für maschinelles Lernen zu testen und zu bewerten, ohne Daten manuell sammeln und vorverarbeiten zu müssen.

Sie stehen außerdem jedem zum Download und zur kostenlosen Nutzung zur Verfügung.

Das Hauptbild dieses Artikels wurde mit dem AI Stable Diffusion-Modell von HackerNoon unter Verwendung der Eingabeaufforderung „Iris-Datensatz“ generiert.

Weitere Datensatz-Listicles: