28,945 okumalar

Makine Öğrenimi Modelleri Oluşturmak için En İyi 16 Sklearn Veri Kümesi

ile Open Datasets Compiled by HackerNoon12m2023/04/15

Çok uzun; Okumak

Sklearn, SciPy üzerine kurulu, makine öğrenimine yönelik bir Python modülüdür. Geniş algoritma yelpazesi ve kullanım kolaylığı nedeniyle benzersizdir. Veriler, makine öğrenimi algoritmalarına ve scikit-learn'e güç verir. Sklearn, araştırmacılar, uygulayıcılar ve meraklılar tarafından yaygın olarak kullanılan yüksek kaliteli veri kümeleri sunmaktadır.

featured image - Makine Öğrenimi Modelleri Oluşturmak için En İyi 16 Sklearn Veri Kümesi

‘Iris dataset’ Image created by HackerNoon AI Image Generator

Veriler, makine öğrenimi algoritmalarına ve scikit-learn veya sklearn araştırmacılar, uygulayıcılar ve meraklılar tarafından yaygın olarak kullanılan yüksek kaliteli veri kümeleri sunar. Scikit-learn (sklearn), SciPy üzerine kurulu makine öğrenimi için bir Python modülüdür. Geniş algoritma yelpazesi, kullanım kolaylığı ve diğer Python kütüphaneleriyle entegrasyonu nedeniyle benzersizdir.

“Sklearn Veri Kümeleri” nedir?

Sklearn veri kümeleri, scikit-learn'in bir parçası olarak dahil edilmiştir ( sklearn ) kitaplığı, böylece kitaplıkla birlikte önceden yüklenmiş olarak gelirler. Bu sayede ayrı olarak indirmenize gerek kalmadan bu veri kümelerine kolayca erişebilir ve yükleyebilirsiniz.

Belirli bir veri kümesini kullanmak için, onu sklearn.datasets modülünden içe aktarabilir ve verileri programınıza yüklemek için uygun işlevi çağırabilirsiniz.

Bu veri kümeleri genellikle önceden işlenir ve kullanıma hazır olur; bu, farklı makine öğrenimi modelleri ve algoritmalarıyla denemeler yapması gereken veri uygulayıcıları için zamandan ve emekten tasarruf sağlar.

Sklearn Kütüphanesindeki Veri Kümelerinin Tam Listesi

İris
Diyabet
Rakamlar
Linnerud
Şarap
Meme Kanseri Wisconsin
Boston Konutları
Olivetti'nin Yüzleri
Kaliforniya Konutları
MNIST
Moda-MNIST
make_classification
make_regression
make_blobs
make_moons ve make_circles
Make_sparse_coded_signal

Önceden Yüklenmiş(Oyuncak) Sklearn Veri Kümeleri

1.

Bu veri seti, setosa, versicolor ve virginica olmak üzere 3 farklı türe ait olan 150 iris çiçeğinin çanak yaprağı uzunluğu, çanak yaprağı genişliği, taç yaprağı uzunluğu ve taç yaprağı genişliği ölçümlerini içerir. İris veri kümesinde, her çiçeğin türü için bir sütun da dahil olmak üzere bir veri çerçevesi olarak depolanan 150 satır ve 5 sütun bulunur.

Değişkenler şunları içerir:

Sepal.Length - Sepal.length, sepal uzunluğunu santimetre cinsinden temsil eder.
Sepal.Width - Sepal.width, sepalin genişliğini santimetre cinsinden temsil eder.
Petal.Length - Petal.length, taç yaprağının uzunluğunu santimetre cinsinden temsil eder.
Türler - Tür değişkeni, üç olası değerle iris çiçeğinin türünü temsil eder: setosa, versicolor ve virginica.

İris veri kümesini, sklearn.datasets modülündeki load_iris işlevini kullanarak doğrudan sklearn'den yükleyebilirsiniz.

 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())

Iris veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 27/3/2023 tarihinde.

2.

Bu sklearn veri seti, demografik ve klinik ölçümler de dahil olmak üzere 442 diyabet hastası hakkında bilgi içerir:

Yaş
Seks
Vücut kitle indeksi (BMI)
Ortalama kan basıncı
Altı kan serumu ölçümü (örneğin toplam kolesterol, düşük yoğunluklu lipoprotein (LDL) kolesterol, yüksek yoğunluklu lipoprotein (HDL) kolesterol).
Diyabet hastalığının ilerlemesinin (HbA1c) niceliksel bir ölçüsü.

Diyabet veri kümesi, sklearn.datasets modülündeki load_diabetes() işlevi kullanılarak yüklenebilir.

 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())

Sklearn kullanarak Diyabet veri kümesini yüklemeye yönelik kod. Alınan 28/3/2023 tarihinde.

3.

Bu sklearn veri kümesi, gri tonlamalı görüntüler olarak depolanan, 0'dan 9'a kadar elle yazılmış rakamlardan oluşan bir koleksiyondur. Toplam 1797 örnek içerir ve her örnek 2 boyutlu bir şekil dizisidir (8,8). Rakamlar sklearn veri setinde, her rakamlı görüntüdeki 64 piksele karşılık gelen 64 değişken (veya özellik) vardır.

Digits veri kümesi, sklearn.datasets modülündeki load_digits() işlevi kullanılarak yüklenebilir.

 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)

Sklearn kullanarak Digits veri kümesini yükleme kodu. Alınan 29/3/2023 tarihinde.

4.

Linnerud veri seti 20 profesyonel sporcunun fiziksel ve fizyolojik ölçümlerini içermektedir.

Veri kümesi aşağıdaki değişkenleri içerir:

Üç fiziksel egzersiz değişkeni: barfiks, mekik ve zıplama.
Üç fizyolojik ölçüm değişkeni: nabız, sistolik kan basıncı ve diyastolik kan basıncı.

Linnerud veri kümesini Python'a sklearn kullanarak yüklemek için:

 from sklearn.datasets import load_linnerud linnerud = load_linnerud()

Linnerud veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 27/3/2023 tarihinde.

5.

Bu sklearn veri seti, şarapları doğru çeşitlerine göre sınıflandırmak için İtalya'nın belirli bir bölgesinde yetiştirilen şarapların kimyasal analizlerinin sonuçlarını içerir.

Veri kümesindeki değişkenlerden bazıları:

Alkol
Malik asit
Kül
Külün alkaliliği
Magnezyum
Toplam fenoller
Flavanoidler

Wine veri kümesi, sklearn.datasets modülündeki load_wine() işlevi kullanılarak yüklenebilir.

 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names

Şarap Kalitesi veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan 28/3/2023 tarihinde.

6.

Bu sklearn veri seti, meme kanseri tümörleri hakkındaki bilgileri içerir ve ilk olarak Dr. William H. Wolberg tarafından oluşturulmuştur. Veri seti, araştırmacılara ve makine öğrenimi uygulayıcılarına, tümörleri kötü huylu (kanserli) veya iyi huylu (kanserli olmayan) olarak sınıflandırmada yardımcı olmak için oluşturuldu.

Bu veri setinde yer alan değişkenlerden bazıları:

kimlik Numarası
Teşhis (M = kötü huylu, B = iyi huylu).
Yarıçap (merkezden çevre üzerindeki noktalara olan mesafelerin ortalaması).
Doku (gri tonlamalı değerlerin standart sapması).
Çevre
Alan
Pürüzsüzlük (yarıçap uzunluklarındaki yerel değişim).
Kompaktlık (çevre^2 / alan - 1,0).
İçbükeylik (konturun içbükey kısımlarının ciddiyeti).
İçbükey noktalar (konturun içbükey kısımlarının sayısı).
Simetri
Fraktal boyut ("kıyı şeridi yaklaşımı" - 1).

Meme Kanseri Wisconsin veri kümesini, sklearn.datasets modülündeki load_breast_cancer işlevini kullanarak doğrudan sklearn'den yükleyebilirsiniz.

 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())

Meme Kanseri Wisconsin veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 28/3/2023 tarihinde.

Gerçek Dünya Sklearn Veri Kümeleri

Gerçek dünya sklearn veri kümeleri, Python'daki sklearn kütüphanesini kullanarak makine öğrenimi algoritmaları ve teknikleri ile pratik yapmak ve deneyler yapmak için yaygın olarak kullanılan gerçek dünya problemlerine dayanmaktadır.

7.

Boston Konut veri seti, Boston, Massachusetts bölgesindeki konutlara ilişkin bilgilerden oluşur. Yaklaşık 506 satır ve 14 sütun veriden oluşur.

Veri kümesindeki değişkenlerden bazıları şunlardır:

CRIM - Şehirlere göre kişi başına düşen suç oranı.
ZN - 25.000 m²'nin üzerindeki parseller için imar edilen konut arazilerinin oranı.
INDUS - Kasaba başına perakende olmayan iş alanlarının oranı.
CHAS - Charles Nehri kukla değişkeni (= eğer bölge nehri sınırlıyorsa 1; aksi halde 0).
NOX - Nitrik oksit konsantrasyonu (10 milyonda bir parça).
RM – Konut başına düşen ortalama oda sayısı.
YAŞ – 1940'tan önce inşa edilen, sahibi tarafından kullanılan birimlerin oranı.
DIS - Boston'daki beş iş bulma merkezine olan ağırlıklı mesafeler.
RAD - Radyal otoyollara erişilebilirlik endeksi.
VERGİ - 10.000 $ başına tam değerli emlak vergisi oranı.
PTRATIO - Kasabalara göre öğrenci-öğretmen oranı.
B - 1000(Bk - 0,63)^2 burada -Bk kasabaya göre siyahların oranıdır.
LSTAT - Nüfusun daha düşük durumunun yüzdesi.
MEDV - Sahibi tarafından kullanılan evlerin ortalama değeri 1000$'dır.

Boston Housing veri setini, sklearn.datasets modülündeki load_boston işlevini kullanarak doğrudan scikit-learn'den yükleyebilirsiniz.

 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())

Boston Housing veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 29/3/2023 tarihinde.

8.

Olivetti Faces veri seti, Nisan 1992 ile Nisan 1994 arasında AT&T Laboratuvarlarında çekilen insan yüzlerinin gri tonlamalı görüntülerinden oluşan bir koleksiyondur. Her biri farklı açılardan ve farklı aydınlatma koşullarında çekilmiş 40 görüntüden oluşan 10 kişiden oluşan 400 görüntü içerir.

Olivetti Faces veri kümesini, veri kümeleri modülündeki fetch_olivetti_faces işlevini kullanarak sklearn'e yükleyebilirsiniz.

 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target

Olivetti Faces veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 29/3/2023 tarihinde.

9.

Bu sklearn veri seti, Kaliforniya'daki nüfus sayımı bölgelerinin özelliklerinin yanı sıra ortalama ev değerlerine ilişkin bilgiler içerir. Ayrıca 20.640 örnek ve 8 özellik içerir.

Veri kümesindeki değişkenlerden bazıları:

MedInc - Bloktaki ortalama gelir.
HouseAge - Bloktaki evlerin ortalama yaşı.
AveRooms - Hane başına düşen ortalama oda sayısı.
AveBedrms - Hane başına düşen ortalama yatak odası sayısı.
Nüfus - Blok nüfusu.
AveOccup - Ortalama hane halkı doluluğu.
Enlem - Bloğun ondalık derece cinsinden enlemi.
Boylam - Bloğun ondalık derece cinsinden boylamı.

California Housing veri kümesini sklearn'deki fetch_california_housing işlevini kullanarak yükleyebilirsiniz.

 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target

California Housing veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 29/3/2023 tarihinde.

10.

MNIST veri seti popülerdir ve makine öğrenmesi ve bilgisayarlı görme alanlarında yaygın olarak kullanılmaktadır. 60.000'i eğitim ve 10.000'i test için olmak üzere, 0-9 arası elle yazılmış rakamlardan oluşan 70.000 gri tonlamalı görüntüden oluşur. Her görüntü 28x28 piksel boyutundadır ve hangi basamakları temsil ettiğini belirten karşılık gelen bir etikete sahiptir.

MNIST veri kümesini sklearn'den aşağıdaki kodu kullanarak yükleyebilirsiniz:

 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')

Not: MNIST veri kümesi, Rakamlar veri kümesinin bir alt kümesidir.

MNIST veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 30/3/2023 tarihinde.

11.

Fashion MNIST veri seti, orijinal MNIST veri setinin yerine geçmek üzere Zalando Research tarafından oluşturuldu. Fashion MNIST veri seti, giyim öğelerinin 70.000 gri tonlamalı görüntüsünden (60.000 eğitim seti ve 10.000 test seti) oluşur.

Görüntüler 28x28 piksel boyutundadır ve tişörtler/üstler, pantolonlar, kazaklar, elbiseler, paltolar, sandaletler, gömlekler, spor ayakkabılar, çantalar ve bilekte botlar dahil olmak üzere 10 farklı giyim öğesini temsil etmektedir. Orijinal MNIST veri setine benzer ancak giyim öğelerinin daha karmaşık ve çeşitli olması nedeniyle sınıflandırma görevleri daha zorludur.

Bu sklearn veri kümesini fetch_openml işlevini kullanarak yükleyebilirsiniz.

 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')

Fashion MNIST veri kümesini sklearn kullanarak yüklemek için kullanılan kod. __ adresinden 30/3/2023 tarihinde alındı.

Oluşturulan Sklearn Veri Kümeleri

Oluşturulan sklearn veri kümeleri, Python'daki sklearn kitaplığı kullanılarak oluşturulan sentetik veri kümeleridir. Makine öğrenimi algoritmalarını/modellerini test etmek, kıyaslamak ve geliştirmek için kullanılırlar.

12.

Bu işlev, belirli sayıda örnek, özellik ve bilgilendirici özellik içeren rastgele bir n sınıfı sınıflandırma veri kümesi oluşturur.

100 örnek, 5 özellik ve 3 sınıf içeren bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:

 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

Bu kod, 3 sınıf ve 3 bilgilendirici özellik içeren 100 örnek ve 5 özellik içeren bir veri kümesi oluşturur. Geri kalan özellikler yedekli veya gürültülü olacaktır.

make_classification veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan 30/3/2023 tarihinde.

13.

Bu işlev, belirli sayıda örnek, özellik ve gürültü içeren rastgele bir regresyon veri kümesi oluşturur.

100 örnek, 5 özellik ve 0,1 gürültü seviyesiyle bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:

 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

Bu kod, 0,1 gürültü düzeyine sahip, 100 örnek ve 5 özellikten oluşan bir veri kümesi oluşturur. Hedef değişken y sürekli bir değişken olacaktır.

make_regression veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan 30/3/2023 tarihinde.

14.

Bu işlev, belirli sayıda örnek ve kümeden oluşan rastgele bir veri kümesi oluşturur.

100 örnek ve 3 küme içeren bu sklearn veri kümesini oluşturmak için örnek kodu burada bulabilirsiniz:

 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)

Bu kod, 100 örnek ve 2 özellik (x ve y koordinatları), rastgele konumlarda ortalanmış 3 küme içeren ve gürültüsüz bir veri kümesi oluşturur.

make_blobs veri kümesini sklearn kullanarak yüklemeye yönelik kod. Alınan 30/3/2023 tarihinde.

15. Ve

Bu işlevler, doğrusal olmayan sınıflandırma algoritmalarını test etmek için yararlı olan, doğrusal olmayan sınırlara sahip veri kümeleri oluşturur.

make_moons veri kümesini yüklemek için örnek bir kod:

sklearn.datasets'ten make_moons'u içe aktar X, y = make_moons(n_samples=1000, gürültü=0,2, random_state=42)

Bu kod, 1000 örnek ve 2 özellik (x ve y koordinatları) içeren, iki sınıf arasında doğrusal olmayan bir sınıra sahip ve verilere Gauss gürültüsünün 0,2 standart sapması eklenmiş bir veri kümesi oluşturur.

make_moons veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan 30/3/2023 tarihinde.

make_circles veri kümesini oluşturmak ve yüklemek için örnek bir kodu burada bulabilirsiniz:

 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

make_circles veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan 30/3/2023 tarihinde.

16.

Bu işlev, sıkıştırma algılama algoritmalarını test etmek için yararlı olan seyrek kodlu bir sinyal veri kümesi oluşturur.

Bu sklearn veri kümesini yüklemek için örnek bir kodu burada bulabilirsiniz:

 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

Bu kod, 100 örnek, 50 özellik ve 10 atom içeren seyrek kodlu bir sinyal veri kümesi üretir.

Make_sparse_coded_signal veri kümesini sklearn kullanarak yüklemek için kullanılan kod. Alınan 30/3/2023 tarihinde.

Sklearn Veri Kümeleri için Yaygın Kullanım Durumları

Önceden Yüklenmiş(Oyuncak) Sklearn Veri Kümeleri

- Bu sklearn veri kümesi, sınıflandırma görevleri için yaygın olarak kullanılır ve sınıflandırma algoritmalarını test etmek için bir kıyaslama veri kümesi olarak kullanılır.

- Bu veri seti diyabetli hastalar hakkında tıbbi bilgiler içerir ve sağlık hizmetleri analitiğinde sınıflandırma ve regresyon görevleri için kullanılır.

- Bu sklearn veri seti, el yazısı rakamların görüntülerini içerir ve genellikle görüntü sınıflandırma ve örüntü tanıma görevleri için kullanılır.

- Bu veri seti 20 sporcunun fiziksel kondisyon ve tıbbi verilerini içerir ve çok değişkenli regresyon analizi için yaygın olarak kullanılır.

- Bu sklearn veri seti, şarapların kimyasal analizini içerir ve genellikle sınıflandırma ve kümeleme görevleri için kullanılır.

- Bu veri seti meme kanseri hastaları hakkında tıbbi bilgiler içerir ve sağlık hizmetleri analitiğinde sınıflandırma görevleri için yaygın olarak kullanılır.

Gerçek Dünya Sklearn Veri Kümeleri

- Bu sklearn veri seti, Boston'daki konutlarla ilgili bilgiler içerir ve genellikle regresyon görevleri için kullanılır.

- Bu veri kümesi, yüzlerin gri tonlamalı görüntülerini içerir ve genellikle görüntü sınıflandırma ve yüz tanıma görevleri için kullanılır.

- Bu sklearn veri seti Kaliforniya'daki konutlarla ilgili bilgiler içerir ve genellikle regresyon görevleri için kullanılır.

- Bu veri kümesi el yazısıyla yazılan rakamların görüntülerini içerir ve genellikle görüntü sınıflandırma ve örüntü tanıma görevleri için kullanılır.

- Bu sklearn veri seti, giyim eşyalarının resimlerini içerir ve genellikle resim sınıflandırma ve desen tanıma görevleri için kullanılır.

Oluşturulan Sklearn Veri Kümeleri

- Bu veri seti, ikili ve çok sınıflı sınıflandırma görevleri için rastgele oluşturulmuş bir veri setidir.

- Bu veri kümesi, regresyon görevleri için rastgele oluşturulmuş bir veri kümesidir.

- Bu sklearn veri kümesi, kümeleme görevleri için rastgele oluşturulmuş bir veri kümesidir.

Ve - Bu veri kümeleri, sınıflandırma görevleri için rastgele oluşturulmuş veri kümeleridir ve genellikle doğrusal olmayan sınıflandırıcıları test etmek için kullanılır.

- Bu veri seti, sinyal işlemede seyrek kodlama görevleri için rastgele oluşturulmuş bir veri setidir.

Son düşünceler

Sklearn veri kümeleri, geliştiricilerin ve araştırmacıların, verileri manuel olarak toplamaya ve ön işlemeye gerek kalmadan makine öğrenimi modellerini test etmeleri ve değerlendirmeleri için uygun bir yol sağlar.

Ayrıca herkesin ücretsiz olarak indirip kullanmasına da açıktır.

Bu makalenin ana görseli, 'iris veri kümesi' istemi kullanılarak HackerNoon'un AI Stabil Difüzyon modeli aracılığıyla oluşturulmuştur.

Daha Fazla Veri Kümesi Listesi: