28,974 रीडिंग

मशीन लर्निंग मॉडल बनाने के लिए 16 सर्वश्रेष्ठ स्केलेरन डेटासेट

द्वारा Open Datasets Compiled by HackerNoon12m2023/04/15

बहुत लंबा; पढ़ने के लिए

Sklearn, SciPy के शीर्ष पर निर्मित मशीन लर्निंग के लिए एक पायथन मॉड्यूल है। यह एल्गोरिदम की विस्तृत श्रृंखला और उपयोग में आसानी के कारण अद्वितीय है। डेटा शक्तियाँ मशीन लर्निंग एल्गोरिदम और स्किकिट-लर्न। स्केलेर उच्च गुणवत्ता वाले डेटासेट प्रदान करता है जो शोधकर्ताओं, चिकित्सकों और उत्साही लोगों द्वारा व्यापक रूप से उपयोग किए जाते हैं।

featured image - मशीन लर्निंग मॉडल बनाने के लिए 16 सर्वश्रेष्ठ स्केलेरन डेटासेट

डेटा शक्तियाँ मशीन लर्निंग एल्गोरिदम और स्किकिट-लर्न या sklearn उच्च गुणवत्ता वाले डेटासेट प्रदान करता है जो शोधकर्ताओं, चिकित्सकों और उत्साही लोगों द्वारा व्यापक रूप से उपयोग किया जाता है। स्किकिट-लर्न (स्केलेर) मशीन लर्निंग के लिए एक पायथन मॉड्यूल है जो साइपी के शीर्ष पर बनाया गया है। यह एल्गोरिदम की विस्तृत श्रृंखला, उपयोग में आसानी और अन्य पायथन पुस्तकालयों के साथ एकीकरण के कारण अद्वितीय है।

"स्केलेरन डेटासेट" क्या हैं?

स्केलेरन डेटासेट को स्किकिट-लर्न के भाग के रूप में शामिल किया गया है ( sklearn ) पुस्तकालय, इसलिए वे पुस्तकालय के साथ पूर्व-स्थापित होते हैं। इसके कारण, आप इन डेटासेट को अलग से डाउनलोड किए बिना आसानी से एक्सेस और लोड कर सकते हैं।

एक विशिष्ट डेटासेट का उपयोग करने के लिए, आप बस इसे sklearn.datasets मॉड्यूल से आयात कर सकते हैं और डेटा को अपने प्रोग्राम में लोड करने के लिए उपयुक्त फ़ंक्शन को कॉल कर सकते हैं।

ये डेटासेट आमतौर पर पूर्व-संसाधित और उपयोग के लिए तैयार होते हैं, जो डेटा चिकित्सकों के लिए समय और प्रयास बचाता है, जिन्हें विभिन्न मशीन लर्निंग मॉडल और एल्गोरिदम के साथ प्रयोग करने की आवश्यकता होती है।

स्केलेरन लाइब्रेरी में डेटासेट की पूरी सूची

आँख की पुतली
मधुमेह
अंक
Linnerud
शराब
स्तन कैंसर विस्कॉन्सिन
बोस्टन हाउसिंग
ओलिवेटी चेहरे
कैलिफोर्निया हाउसिंग
Mnist
फैशन-MNIST
make_classification
make_regression
make_blobs
मेक_मून और मेक_सर्कल
Make_sparse_coded_signal

पूर्व-स्थापित (खिलौना) स्केलेरन डेटासेट

1.

इस डेटासेट में 150 आईरिस फूलों की बाह्यदल की लंबाई, बाह्यदल की चौड़ाई, पंखुड़ी की लंबाई और पंखुड़ी की चौड़ाई के माप शामिल हैं, जो 3 अलग-अलग प्रजातियों से संबंधित हैं: सेटोसा, वर्सिकलर और वर्जिनिका। आइरिस डेटासेट में 150 पंक्तियाँ और 5 कॉलम होते हैं, जिन्हें डेटाफ़्रेम के रूप में संग्रहीत किया जाता है, जिसमें प्रत्येक फूल की प्रजातियों के लिए एक कॉलम भी शामिल है।

चर में शामिल हैं:

बाह्यदल की लंबाई - बाह्यदल की लंबाई सेंटीमीटर में बाह्यदल की लंबाई को दर्शाती है।
बाह्यदल.चौड़ाई - बाह्यदल.चौड़ाई सेंटीमीटर में बाह्यदल की चौड़ाई का प्रतिनिधित्व करती है।
पंखुड़ी.लंबाई - पंखुड़ी.लंबाई सेंटीमीटर में पंखुड़ी की लंबाई दर्शाती है।
प्रजाति - प्रजाति चर आईरिस फूल की प्रजाति का प्रतिनिधित्व करता है, तीन संभावित मूल्यों के साथ: सेटोसा, वर्सिकलर और वर्जिनिका।

आप sklearn.datasets मॉड्यूल से load_iris फ़ंक्शन का उपयोग करके आईरिस डेटासेट को सीधे sklearn से लोड कर सकते हैं।

 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())

स्केलेरन का उपयोग करके आइरिस डेटासेट लोड करने के लिए कोड। से लिया गया 27/3/2023 को।

2.

इस स्केलेरन डेटासेट में जनसांख्यिकीय और नैदानिक माप सहित मधुमेह वाले 442 रोगियों की जानकारी शामिल है:

आयु
लिंग
बॉडी मास इंडेक्स (बीएमआई)
औसत रक्तचाप
छह रक्त सीरम माप (जैसे कुल कोलेस्ट्रॉल, कम घनत्व वाले लिपोप्रोटीन (एलडीएल) कोलेस्ट्रॉल, उच्च घनत्व वाले लिपोप्रोटीन (एचडीएल) कोलेस्ट्रॉल)।
मधुमेह रोग प्रगति का एक मात्रात्मक उपाय (HbA1c)।

sklearn.datasets मॉड्यूल से load_diabetes () फ़ंक्शन का उपयोग करके मधुमेह डेटासेट लोड किया जा सकता है।

 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())

स्केलेरन का उपयोग करके मधुमेह डेटासेट लोड करने के लिए कोड। से लिया गया 28/3/2023 को।

3.

यह स्केलेरन डेटासेट 0 से 9 तक हस्तलिखित अंकों का एक संग्रह है, जिसे ग्रेस्केल छवियों के रूप में संग्रहीत किया जाता है। इसमें कुल 1797 नमूने हैं, प्रत्येक नमूने के आकार का 2D सरणी (8,8) है। अंकों के स्केलेरन डेटासेट में 64 चर (या विशेषताएं) हैं, जो प्रत्येक अंक की छवि में 64 पिक्सेल के अनुरूप हैं।

sklearn.datasets मॉड्यूल से load_digits() फ़ंक्शन का उपयोग करके अंक डेटासेट को लोड किया जा सकता है।

 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)

स्केलेरन का उपयोग करके अंक डेटासेट लोड करने के लिए कोड। से लिया गया 29/3/2023 को।

4.

लाइनररुड डेटासेट में 20 पेशेवर एथलीटों के शारीरिक और शारीरिक माप शामिल हैं।

डेटासेट में निम्नलिखित चर शामिल हैं:

तीन शारीरिक व्यायाम चर - चिन-अप, सिट-अप और जंपिंग जैक।
तीन शारीरिक माप चर - नाड़ी, सिस्टोलिक रक्तचाप और डायस्टोलिक रक्तचाप।

स्केलेरन का उपयोग करके पायथन में लिनररुड डेटासेट लोड करने के लिए:

 from sklearn.datasets import load_linnerud linnerud = load_linnerud()

स्केलेरन का उपयोग कर लाइनरड डेटासेट लोड करने के लिए कोड। से लिया गया 27/3/2023 को।

5.

इस स्केलेरन डेटासेट में वाइन को उनकी सही किस्मों में वर्गीकृत करने के लिए इटली के एक विशिष्ट क्षेत्र में उगाई जाने वाली वाइन के रासायनिक विश्लेषण के परिणाम शामिल हैं।

डेटासेट में कुछ चर:

अल्कोहल
सेब का तेज़ाब
राख
राख की क्षारीयता
मैगनीशियम
कुल फिनोल
flavonoids

वाइन डेटासेट को sklearn.datasets मॉड्यूल से load_wine () फ़ंक्शन का उपयोग करके लोड किया जा सकता है।

 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names

स्केलेरन का उपयोग करके वाइन गुणवत्ता डेटासेट लोड करने के लिए कोड। से लिया गया 28/3/2023 को।

6.

इस स्केलेरन डेटासेट में स्तन कैंसर के ट्यूमर के बारे में जानकारी शामिल है और शुरुआत में इसे डॉ. विलियम एच. वोलबर्ग ने बनाया था। ट्यूमर को घातक (कैंसर) या सौम्य (गैर-कैंसर) के रूप में वर्गीकृत करने में शोधकर्ताओं और मशीन लर्निंग चिकित्सकों की सहायता के लिए डेटासेट बनाया गया था।

इस डेटासेट में शामिल कुछ चर:

आईडी नंबर
निदान (एम = घातक, बी = सौम्य)।
त्रिज्या (केंद्र से परिधि पर बिंदुओं तक की दूरी का माध्य)।
बनावट (ग्रे-स्केल मानों का मानक विचलन)।
परिमाप
क्षेत्र
चिकनाई (त्रिज्या लंबाई में स्थानीय भिन्नता)।
कॉम्पैक्टनेस (परिधि^2 / क्षेत्र - 1.0)।
अवतलता (समोच्च के अवतल भागों की गंभीरता)।
अवतल बिंदु (समोच्च के अवतल भागों की संख्या)।
समरूपता
भग्न आयाम ("समुद्र तट सन्निकटन" - 1)।

आप sklearn.datasets मॉड्यूल से load_breast_cancer फ़ंक्शन का उपयोग करके स्तन कैंसर विस्कॉन्सिन डेटासेट को सीधे sklearn से लोड कर सकते हैं।

 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())

स्केलेरन का उपयोग करके स्तन कैंसर विस्कॉन्सिन डेटासेट लोड करने के लिए कोड। से लिया गया 28/3/2023 को।

रियल वर्ल्ड स्केलेरन डेटासेट्स

वास्तविक दुनिया स्केलेरन डेटासेट वास्तविक दुनिया की समस्याओं पर आधारित होते हैं, जो आमतौर पर पायथन में स्केलेरन लाइब्रेरी का उपयोग करके मशीन लर्निंग एल्गोरिदम और तकनीकों के साथ अभ्यास और प्रयोग करने के लिए उपयोग किया जाता है।

7.

बोस्टन हाउसिंग डेटासेट में बोस्टन, मैसाचुसेट्स के क्षेत्र में आवास के बारे में जानकारी शामिल है। इसमें लगभग 506 पंक्तियाँ और डेटा के 14 स्तंभ हैं।

डेटासेट में कुछ चरों में शामिल हैं:

CRIM - शहर के अनुसार प्रति व्यक्ति अपराध दर।
ZN - 25,000 sq.ft से अधिक लॉट के लिए ज़ोन की गई आवासीय भूमि का अनुपात।
इंडस - प्रति शहर गैर-खुदरा व्यापार एकड़ का अनुपात।
चास - चार्ल्स रिवर डमी वेरिएबल (= 1 अगर ट्रैक्ट रिवर को बांधता है; 0 अन्यथा)।
NOX - नाइट्रिक ऑक्साइड सांद्रता (भाग प्रति 10 मिलियन)।
आरएम - प्रति आवास कमरों की औसत संख्या।
AGE - 1940 से पहले निर्मित स्वामित्व वाली इकाइयों का अनुपात।
डीआईएस - बोस्टन के पांच रोजगार केंद्रों की भारित दूरी।
रेड - रेडियल राजमार्गों तक पहुंच का सूचकांक।
टैक्स - प्रति $10,000 पर पूरे मूल्य की संपत्ति-कर की दर।
PTRATIO - शहर द्वारा छात्र-शिक्षक अनुपात।
B - 1000(Bk - 0.63)^2 जहां -Bk शहर द्वारा अश्वेतों का अनुपात है।
LSTAT - जनसंख्या का प्रतिशत कम स्थिति।
MEDV - $1000 में मालिक के कब्जे वाले घरों का औसत मूल्य।

आप sklearn.datasets मॉड्यूल से load_boston फ़ंक्शन का उपयोग करके बोस्टन हाउसिंग डेटासेट को सीधे स्किकिट-लर्न से लोड कर सकते हैं।

 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())

स्केलेरन का उपयोग करके बोस्टन हाउसिंग डेटासेट लोड करने के लिए कोड। से लिया गया 29/3/2023 को।

8.

ओलिवेटी फ़ेस डेटासेट एटी एंड टी प्रयोगशालाओं में अप्रैल 1992 और अप्रैल 1994 के बीच लिए गए मानव चेहरों की ग्रेस्केल छवियों का एक संग्रह है। इसमें 10 व्यक्तियों की 400 छवियां शामिल हैं, प्रत्येक व्यक्ति के पास अलग-अलग कोणों और विभिन्न प्रकाश स्थितियों में 40 छवियों को शूट किया गया है।

आप डेटासेट मॉड्यूल से fetch_olivetti_faces फ़ंक्शन का उपयोग करके ओलिवेटी फ़ेस डेटासेट को स्केलेर में लोड कर सकते हैं।

 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target

स्केलेरन का उपयोग करके ओलिवेटी फेसेस डेटासेट लोड करने के लिए कोड। से लिया गया 29/3/2023 को।

9.

इस स्केलेरन डेटासेट में माध्यिका गृह मूल्यों के साथ-साथ कैलिफ़ोर्निया में जनगणना ट्रैक्स के लिए विशेषताएँ शामिल हैं। इसमें 20,640 उदाहरण और 8 सुविधाएँ भी शामिल हैं।

डेटासेट में कुछ चर:

MedInc - ब्लॉक में औसत आय।
हाउसएज - ब्लॉक में घरों की औसत आयु।
AveRooms - प्रति घर कमरों की औसत संख्या।
AveBedrms - प्रति परिवार शयनकक्षों की औसत संख्या।
जनसंख्या - ब्लॉक जनसंख्या।
AveOccup - औसत घरेलू अधिभोग।
अक्षांश - दशमलव डिग्री में ब्लॉक का अक्षांश।
देशांतर - दशमलव डिग्री में ब्लॉक का देशांतर।

आप स्केलेरन से fetch_california_housing फ़ंक्शन का उपयोग करके कैलिफ़ोर्निया हाउसिंग डेटासेट लोड कर सकते हैं।

 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target

स्केलेरन का उपयोग करके कैलिफ़ोर्निया हाउसिंग डेटासेट लोड करने के लिए कोड। से लिया गया 29/3/2023 को।

10.

MNIST डेटासेट मशीन लर्निंग और कंप्यूटर विज़न के क्षेत्र में लोकप्रिय और व्यापक रूप से उपयोग किया जाता है। इसमें हस्तलिखित अंकों की 70,000 ग्रेस्केल छवियां 0–9 हैं, जिसमें प्रशिक्षण के लिए 60,000 चित्र और परीक्षण के लिए 10,000 चित्र हैं। प्रत्येक छवि आकार में 28x28 पिक्सेल है और इसमें एक संबंधित लेबल है जो दर्शाता है कि यह किस अंक का प्रतिनिधित्व करता है।

आप निम्न कोड का उपयोग करके एमएनआईएसटी डेटासेट को स्केलेर से लोड कर सकते हैं:

 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')

नोट: MNIST डेटासेट डिजिट डेटासेट का एक सबसेट है।

स्केलेरन का उपयोग करके MNIST डेटासेट लोड करने के लिए कोड। से लिया गया 30/3/2023 को।

11।

फ़ैशन MNIST डेटासेट Zalando Research द्वारा मूल MNIST डेटासेट के प्रतिस्थापन के रूप में बनाया गया था। फैशन MNIST डेटासेट में 70,000 ग्रेस्केल चित्र (60,000 का प्रशिक्षण सेट और 10,000 का परीक्षण सेट) शामिल हैं।

छवियां आकार में 28x28 पिक्सेल हैं और टी-शर्ट/टॉप, पतलून, स्वेटर, कपड़े, कोट, सैंडल, शर्ट, स्नीकर्स, बैग और टखने के जूते सहित कपड़ों के 10 विभिन्न वर्गों का प्रतिनिधित्व करती हैं। यह मूल MNIST डेटासेट के समान है, लेकिन कपड़ों की वस्तुओं की अधिक जटिलता और विविधता के कारण अधिक चुनौतीपूर्ण वर्गीकरण कार्यों के साथ।

आप Fetch_openml फ़ंक्शन का उपयोग करके इस स्केलेरन डेटासेट को लोड कर सकते हैं।

 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')

स्केलेरन का उपयोग करके फैशन एमएनआईएसटी डेटासेट लोड करने के लिए कोड। 30/3/2023 को __ __ से प्राप्त किया गया।

उत्पन्न स्केलेरन डेटासेट

जेनरेट किए गए स्केलेर डेटासेट सिंथेटिक डेटासेट हैं, जो पायथन में स्केलेरन लाइब्रेरी का उपयोग करके उत्पन्न होते हैं। उनका उपयोग मशीन लर्निंग एल्गोरिदम / मॉडल के परीक्षण, बेंचमार्किंग और विकास के लिए किया जाता है।

12.

यह फ़ंक्शन एक निर्दिष्ट संख्या में नमूनों, सुविधाओं और सूचनात्मक सुविधाओं के साथ एक यादृच्छिक एन-श्रेणी वर्गीकरण डेटासेट उत्पन्न करता है।

इस स्केलेरन डेटासेट को 100 नमूनों, 5 सुविधाओं और 3 वर्गों के साथ उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:

 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

यह कोड 3 वर्गों और 3 सूचनात्मक विशेषताओं के साथ 100 नमूनों और 5 सुविधाओं के साथ एक डेटासेट उत्पन्न करता है। शेष विशेषताएँ बेमानी या शोर वाली होंगी।

स्केलेरन का उपयोग करके मेक_क्लासिफिकेशन डेटासेट लोड करने के लिए कोड। से लिया गया 30/3/2023 को।

13.

यह फ़ंक्शन निर्दिष्ट संख्या में नमूनों, सुविधाओं और शोर के साथ एक यादृच्छिक प्रतिगमन डेटासेट उत्पन्न करता है।

इस स्केलेरन डेटासेट को 100 नमूनों, 5 सुविधाओं और 0.1 के शोर स्तर के साथ उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:

 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

यह कोड 0.1 के शोर स्तर के साथ 100 नमूनों और 5 सुविधाओं के साथ एक डेटासेट उत्पन्न करता है। लक्ष्य चर y एक सतत चर होगा।

स्केलेरन का उपयोग करके मेक_रिग्रेशन डेटासेट लोड करने के लिए कोड। से लिया गया 30/3/2023 को।

14.

यह फ़ंक्शन एक निर्दिष्ट संख्या में नमूने और क्लस्टर के साथ एक यादृच्छिक डेटासेट उत्पन्न करता है।

100 नमूनों और 3 समूहों के साथ इस स्केलेरन डेटासेट को उत्पन्न करने के लिए यहां एक उदाहरण कोड दिया गया है:

 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)

यह कोड 100 नमूनों और 2 सुविधाओं (x और y निर्देशांक) के साथ एक डेटासेट उत्पन्न करता है, जिसमें 3 क्लस्टर यादृच्छिक स्थानों पर केंद्रित होते हैं, और बिना किसी शोर के।

स्केलेरन का उपयोग करके Make_blobs डेटासेट लोड करने के लिए कोड। से लिया गया 30/3/2023 को।

15. और

ये फ़ंक्शन गैर-रैखिक सीमाओं वाले डेटासेट उत्पन्न करते हैं जो गैर-रैखिक वर्गीकरण एल्गोरिदम के परीक्षण के लिए उपयोगी होते हैं।

Make_moons डेटासेट लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:

sklearn.datasets से make_moons आयात करें एक्स, वाई = मेक_मून्स (एन_सैंपल्स = 1000, शोर = 0.2, रैंडम_स्टेट = 42)

यह कोड दो वर्गों के बीच एक गैर-रेखीय सीमा के साथ 1000 नमूनों और 2 विशेषताओं (x और y निर्देशांक) के साथ एक डेटासेट उत्पन्न करता है, और डेटा में जोड़े गए गॉसियन शोर के 0.2 मानक विचलन के साथ।

स्केलेरन का उपयोग करके मेक_मून डेटासेट लोड करने के लिए कोड। से लिया गया 30/3/2023 को।

Make_circles डेटासेट जनरेट करने और लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:

 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

स्केलेरन का उपयोग करके Make_circles डेटासेट लोड करने के लिए कोड। से लिया गया 30/3/2023 को।

16.

यह फ़ंक्शन एक विरल कोडेड सिग्नल डेटासेट उत्पन्न करता है जो कंप्रेसिव सेंसिंग एल्गोरिदम के परीक्षण के लिए उपयोगी है।

इस स्केलेरन डेटासेट को लोड करने के लिए यहां एक उदाहरण कोड दिया गया है:

 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

यह कोड 100 नमूनों, 50 विशेषताओं और 10 परमाणुओं के साथ विरल कोडित सिग्नल डेटासेट उत्पन्न करता है।

स्केलेरन का उपयोग करके Make_sparse_coded_signal डेटासेट लोड करने के लिए कोड। से लिया गया 30/3/2023 को।

स्केलेरन डेटासेट के लिए सामान्य उपयोग के मामले

पूर्व-स्थापित (खिलौना) स्केलेरन डेटासेट

- यह स्केलेरन डेटासेट आमतौर पर वर्गीकरण कार्यों के लिए उपयोग किया जाता है और वर्गीकरण एल्गोरिदम के परीक्षण के लिए एक बेंचमार्क डेटासेट के रूप में उपयोग किया जाता है।

- इस डेटासेट में मधुमेह के रोगियों के बारे में चिकित्सा जानकारी होती है और इसका उपयोग स्वास्थ्य देखभाल विश्लेषण में वर्गीकरण और प्रतिगमन कार्यों के लिए किया जाता है।

- इस स्केलेरन डेटासेट में हस्तलिखित अंकों की छवियां होती हैं और आमतौर पर छवि वर्गीकरण और पैटर्न पहचान कार्यों के लिए उपयोग की जाती हैं।

- इस डेटासेट में 20 एथलीटों की शारीरिक फिटनेस और चिकित्सा डेटा शामिल है और आमतौर पर बहुभिन्नरूपी प्रतिगमन विश्लेषण के लिए उपयोग किया जाता है।

- इस स्केलेरन डेटासेट में वाइन का रासायनिक विश्लेषण होता है और आमतौर पर इसका उपयोग वर्गीकरण और क्लस्टरिंग कार्यों के लिए किया जाता है।

- इस डेटासेट में स्तन कैंसर रोगियों के बारे में चिकित्सा जानकारी होती है और आमतौर पर स्वास्थ्य देखभाल विश्लेषण में वर्गीकरण कार्यों के लिए इसका उपयोग किया जाता है।

रियल वर्ल्ड स्केलेरन डेटासेट्स

- इस स्केलेरन डेटासेट में बोस्टन में आवास के बारे में जानकारी है और आमतौर पर इसका उपयोग प्रतिगमन कार्यों के लिए किया जाता है।

- इस डेटासेट में चेहरों की ग्रेस्केल छवियां होती हैं और आमतौर पर इसका उपयोग छवि वर्गीकरण और चेहरे की पहचान कार्यों के लिए किया जाता है।

- इस स्केलेरन डेटासेट में कैलिफोर्निया में आवास के बारे में जानकारी है और आमतौर पर इसका उपयोग प्रतिगमन कार्यों के लिए किया जाता है।

- इस डेटासेट में हस्तलिखित अंकों की छवियां होती हैं और आमतौर पर इसका उपयोग छवि वर्गीकरण और पैटर्न पहचान कार्यों के लिए किया जाता है।

- इस स्केलेरन डेटासेट में कपड़ों की वस्तुओं की छवियां होती हैं और आमतौर पर छवि वर्गीकरण और पैटर्न पहचान कार्यों के लिए उपयोग की जाती हैं।

उत्पन्न स्केलेरन डेटासेट

- यह डेटासेट बाइनरी और मल्टीक्लास वर्गीकरण कार्यों के लिए यादृच्छिक रूप से जेनरेट किया गया डेटासेट है।

- यह डेटासेट प्रतिगमन कार्यों के लिए यादृच्छिक रूप से जेनरेट किया गया डेटासेट है।

- यह स्केलेरन डेटासेट क्लस्टरिंग कार्यों के लिए यादृच्छिक रूप से जेनरेट किया गया डेटासेट है।

और - ये डेटासेट वर्गीकरण कार्यों के लिए बेतरतीब ढंग से उत्पन्न डेटासेट हैं और आमतौर पर नॉनलाइनियर क्लासिफायर के परीक्षण के लिए उपयोग किए जाते हैं।

- यह डेटासेट सिग्नल प्रोसेसिंग में विरल कोडिंग कार्यों के लिए एक यादृच्छिक रूप से उत्पन्न डेटासेट है।

अंतिम विचार

स्केलेरन डेटासेट डेवलपर्स और शोधकर्ताओं के लिए मशीन लर्निंग मॉडल का परीक्षण और मूल्यांकन करने के लिए एक सुविधाजनक तरीका प्रदान करते हैं, बिना मैन्युअल रूप से डेटा एकत्र और प्रीप्रोसेस किए बिना।

वे किसी के लिए भी मुफ्त में डाउनलोड करने और उपयोग करने के लिए उपलब्ध हैं।

इस आलेख की मुख्य छवि हैकरनून के एआई स्थिर प्रसार मॉडल के माध्यम से शीघ्र 'आइरिस डेटासेट' का उपयोग करके तैयार की गई थी।

अधिक डेटासेट सूची: