Keras bietet eine High-Level-API, die den Prozess der Erstellung und des Trainings komplexer neuronaler Netzwerkmodelle vereinfacht. Mit einer breiten Palette vorgefertigter Ebenen und Funktionen können Entwickler problemlos Deep-Learning-Modelle erstellen und trainieren. Keras unterstützt außerdem die GPU-Beschleunigung für Training und Inferenz, was es zu einer beliebten Wahl sowohl für Forschungs- als auch für Industrieanwendungen macht.
Keras bietet eine High-Level-API, die den Prozess der Erstellung und des Trainings komplexer neuronaler Netzwerkmodelle vereinfacht. Mit einer breiten Palette vorgefertigter Ebenen und Funktionen können Entwickler mithilfe von Optimierungsalgorithmen problemlos Deep-Learning-Modelle für große Datensätze erstellen und trainieren. Keras unterstützt außerdem die GPU-Beschleunigung für Training und Inferenz, was es zu einer beliebten Wahl sowohl für Forschungs- als auch für Industrieanwendungen macht.
Was sind „Keras-Datensätze“?
Keras-Datensätze sind vorverarbeitete Datensätze, die mit der Keras-Bibliothek vorinstalliert sind. Diese Datensätze werden in der Deep-Learning-Community häufig zum Benchmarking von Modellen für verschiedene Aufgaben wie Bildklassifizierung, Textklassifizierung und Regression verwendet. Durch die Nutzung dieser Datensätze können Entwickler mit verschiedenen Deep-Learning-Modellen experimentieren und deren Leistung einfach vergleichen.
In diesem Artikel werden die besten Keras-Datensätze zum Erstellen und Trainieren von Deep-Learning-Modellen vorgestellt, die Entwicklern und Forschern weltweit zugänglich sind.
Liste der Keras-Datensätze
1.
Der MNIST-Datensatz ist beliebt und wird häufig in den Bereichen maschinelles Lernen und Computer Vision verwendet. Es besteht aus 70.000 Graustufenbildern der handgeschriebenen Ziffern 0–9, davon 60.000 Bilder zum Training und 10.000 zum Testen. Jedes Bild ist 28 x 28 Pixel groß und verfügt über eine entsprechende Beschriftung, die angibt, welche Ziffern es darstellt.
Dieser Datensatz kann heruntergeladen werden unteroder geladen von:
Der CIFAR-10-Datensatz besteht aus 60.000 32x32-Farbbildern in 10 Klassen mit 6.000 Bildern pro Klasse. Es verfügt über insgesamt 50.000 Trainingsbilder und 10.000 Testbilder, die weiter in fünf Trainingsstapel und einen Teststapel mit jeweils 10.000 Bildern unterteilt sind.
Dieser Datensatz kann heruntergeladen werden unter, oder geladen von:
tf.keras.datasets.cifar10.load_data()
3.
Der CIFAR-100-Datensatz enthält 60.000 (50.000 Trainingsbilder und 10.000 Testbilder) 32x32-Farbbilder in 100 Klassen mit 600 Bildern pro Klasse. Die 100 Klassen sind in 20 Superklassen gruppiert, mit einer feinen Bezeichnung zur Bezeichnung ihrer Klasse und einer groben Bezeichnung zur Darstellung der Superklasse, zu der sie gehört.
Dieser Datensatz kann heruntergeladen werden unter, oder geladen von:
Der Fashion MNIST-Datensatz wurde von Zalando Research als Ersatz für den ursprünglichen MNIST-Datensatz erstellt. Der Fashion-MNIST-Datensatz besteht aus 70.000 Graustufenbildern (Trainingssatz mit 60.000 und Testsatz mit 10.000) von Kleidungsstücken.
Die Bilder haben eine Größe von 28 x 28 Pixel und repräsentieren 10 verschiedene Klassen von Kleidungsstücken, darunter T-Shirts/Tops, Hosen, Pullover, Kleider, Mäntel, Sandalen, Hemden, Turnschuhe, Taschen und Stiefeletten. Er ähnelt dem ursprünglichen MNIST-Datensatz, weist jedoch aufgrund der größeren Komplexität und Vielfalt der Kleidungsstücke anspruchsvollere Klassifizierungsaufgaben auf.
Dieser Datensatz kann heruntergeladen werden unter, oder geladen von:
tf.keras.datasets.fashion_mnist.load_data()
5.
Der IMDB-Datensatz wird häufig für Stimmungsanalyseaufgaben verwendet, bei denen das Ziel darin besteht, die Bewertungen basierend auf ihrem Inhalt als positiv oder negativ zu klassifizieren. Es besteht aus einer Sammlung von 50.000 Filmrezensionen (Trainingsset mit 25.000 und Testset mit 25.000) von der Website der Internet Movie Database, die gleichmäßig in positive und negative Rezensionen aufgeteilt sind.
Jede Rezension in diesem Datensatz ist ein Textdokument, vorverarbeitet und in Folgen von Ganzzahlen umgewandelt, wobei jede Ganzzahl ein Wort in der Rezension darstellt. Die Vokabulargröße ist auf die 10.000 häufigsten Wörter im Datensatz beschränkt und alle weniger häufigen Wörter werden durch ein spezielles „unbekanntes“ Token ersetzt.
Dieser Datensatz kann heruntergeladen werden unter, oder geladen von:
Der Boston Housing-Datensatz enthält Informationen über den Wohnungsbau im Raum Boston. Diese Informationen bestehen aus 506 Instanzen (404 Trainings- und 102 Testinstanzen) mit Attributen für jede Instanz.
Die Attribute umfassen eine Mischung aus quantitativen und kategorialen Variablen, wie z. B. die durchschnittliche Anzahl der Zimmer pro Wohnung, die Pro-Kopf-Kriminalitätsrate und den Anteil der Nicht-Einzelhandelsflächen pro Stadt.
Dieser Datensatz kann heruntergeladen werden unter, oder geladen von:
Der Weinqualitätsdatensatz enthält Informationen zu Rot- und Weißweinproben. Das Ziel dieses Datensatzes besteht darin, die Qualität des Weins anhand chemischer Eigenschaften wie pH-Wert, Dichte, Alkoholgehalt und Zitronensäuregehalt zu klassifizieren.
Zu den Variablen in diesem Datensatz gehören:
Fester Säuregehalt – Die Anzahl der festen Säuren im Wein, ausgedrückt in g/dm^3.
Flüchtige Säure – Die Anzahl der flüchtigen Säuren im Wein, ausgedrückt in g/dm^3.
Zitronensäure – Die Menge an Zitronensäure im Wein, ausgedrückt in g/dm^3.
Restzucker: Die Menge des Restzuckers im Wein, ausgedrückt in g/dm^3.
Chloride – Die Menge an Chlorid im Wein, ausgedrückt in g/dm^3.
Freies Schwefeldioxid – Die Menge an freiem Schwefeldioxid im Wein, ausgedrückt in mg/dm^3.
Gesamtschwefeldioxid – Die Gesamtschwefeldioxidmenge im Wein, ausgedrückt in mg/dm^3.
Dichte – Die Dichte des Weins, ausgedrückt in g/cm^3.
pH-Wert – Der pH-Wert des Weins.
Sulfate – Die Anzahl der Sulfate im Wein, ausgedrückt in g/dm^3.
Alkohol – Der Alkoholgehalt des Weines, ausgedrückt in % vol.
Qualität – Die Qualitätsbewertung des Weins auf einer Skala von 0 bis 10.
Sie können den Datensatz herunterladen, oder es kann von Keras geladen werden:
Der Reuters Newswire-Datensatz ist eine vorverarbeitete Version des ursprünglichen Reuters-Datensatzes, wobei der Text als Folgen von Ganzzahlen codiert ist. Es besteht aus 11.228 Nachrichtenartikeln mit einem Wortschatz von 30.979 Wörtern.
Jeder Artikel ist einem von 46 verschiedenen Themen wie „Mais“, „Rohöl“, „Gewinn“ und „Akquisitionen“ zugeordnet.
Sie können den Datensatz herunterladen unter, oder es kann von geladen werden:
Dieser Datensatz besteht aus medizinischen Daten über Pima-Indianerinnen, wie Alter, Anzahl der Schwangerschaften, Glukosespiegel, Blutdruck, Hautdicke, BMI und Insulinspiegel. Die Keras-Version des Pima Indians Diabetes-Datensatzes enthält 768 Proben mit 8 Eingabevariablen und 1 Ausgabevariable.
Der Pima Indians Diabetes-Datensatz kann unter heruntergeladen werden, oder es kann von Keras geladen werden:
from tensorflow.keras.datasets import pima_indians_diabetes (x_train, y_train), (x_test, y_test) = pima_indians_diabetes.load_data()
10.
Der Datensatz „Hunde vs. Katzen“ besteht aus 25.000 beschrifteten Bildern von Hunden und Katzen, mit 12.500 Bildern jeder Klasse. Diese Bilder wurden aus verschiedenen Quellen mit unterschiedlicher Größe und Qualität gesammelt.
Sie können den Datensatz herunterladen unter, oder es kann von Keras geladen werden:
# Import the necessary Keras libraries: from keras.preprocessing.image import ImageDataGenerator # Set the paths to the training and validation directories: train_dir = 'path/to/train' validation_dir = 'path/to/validation' # Define an ImageDataGenerator object to perform data augmentation and normalization: train_datagen = ImageDataGenerator(rescale=1./255, rotation_range=40, width_shift_range=0.2, height_shift_range=0.2, shear_range=0.2, zoom_range=0.2, horizontal_flip=True) # Use flow_from_directory to load directory data in Keras: validation_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory(train_dir, target_size=(150, 150), batch_size=32, class_mode='binary') validation_generator = validation_datagen.flow_from_directory(validation_dir, target_size=(150, 150), batch_size=32, class_mode='binary') # The flow_from_directory yields preprocessed image batches and labels as DirectoryIterator.
Beachten Sie, dass wir im obigen Code die Datenerweiterung verwenden, um Variationen der Trainingsbilder zu erstellen und so eine Überanpassung zu verhindern. Die Validierungsdaten werden nicht erweitert.
Häufige Anwendungsfälle für Keras-Datensätze
- Handschriftliche Ziffernerkennung.
- Objekterkennung in Bildern.
- Objekterkennung in Bildern (feiner als CIFAR-10).
- Erkennung von Kleidungsstücken.
- Stimmungsanalyse zu Filmkritiken.
- Rückgang der Immobilienpreise.
- Klassifizierung der Weinqualität.
- Themenklassifizierung von Nachrichtenartikeln.
- Binäre Klassifizierung von Diabetes bei Pima-Indianerinnen.
- Binäre Klassifizierung von Bildern von Hunden und Katzen.
Abschließende Gedanken
Keras-Datensätze sind eine wertvolle Ressource für Praktiker und Forscher des maschinellen Lernens. Sie können Zeit und Aufwand bei der Datenerfassung und -vorverarbeitung sparen und sich stärker auf die Modellentwicklung und das Experimentieren konzentrieren.
Diese Keras-Datensätze stehen auch jedem zum kostenlosen Download und zur kostenlosen Nutzung zur Verfügung.