29,017 পড়া

বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেট

দ্বারা Open Datasets Compiled by HackerNoon12m2023/04/15

অতিদীর্ঘ; পড়তে

Sklearn হল SciPy-এর উপরে তৈরি মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটির বিস্তৃত অ্যালগরিদম এবং ব্যবহারের সহজতার কারণে এটি অনন্য। ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন। Sklearn উচ্চ মানের ডেটাসেট অফার করে যা গবেষক, অনুশীলনকারী এবং উত্সাহীদের দ্বারা ব্যাপকভাবে ব্যবহৃত হয়।

featured image - বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেট

‘Iris dataset’ Image created by HackerNoon AI Image Generator

ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন বা sklearn উচ্চ মানের ডেটাসেট অফার করে যা গবেষক, অনুশীলনকারী এবং উত্সাহীদের দ্বারা ব্যাপকভাবে ব্যবহৃত হয়। Scikit-learn (sklearn) হল SciPy-এর উপরে নির্মিত মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটির বিস্তৃত অ্যালগরিদম, ব্যবহারের সহজতা এবং অন্যান্য পাইথন লাইব্রেরির সাথে একীকরণের কারণে এটি অনন্য।

"Sklearn Datasets" কি?

স্কলার্ন ডেটাসেটগুলি স্কিট-লার্নের অংশ হিসাবে অন্তর্ভুক্ত করা হয়েছে ( sklearn ) লাইব্রেরি, তাই তারা লাইব্রেরির সাথে প্রি-ইনস্টল করে আসে। এই কারণে, আপনি এই ডেটাসেটগুলিকে আলাদাভাবে ডাউনলোড না করে সহজেই অ্যাক্সেস এবং লোড করতে পারেন৷

একটি নির্দিষ্ট ডেটাসেট ব্যবহার করতে, আপনি কেবল sklearn.datasets মডিউল থেকে এটি আমদানি করতে পারেন এবং আপনার প্রোগ্রামে ডেটা লোড করার জন্য উপযুক্ত ফাংশনটি কল করতে পারেন।

এই ডেটাসেটগুলি সাধারণত প্রাক-প্রক্রিয়াজাত এবং ব্যবহারের জন্য প্রস্তুত, যা ডেটা অনুশীলনকারীদের জন্য সময় এবং শ্রম বাঁচায় যাদের বিভিন্ন মেশিন লার্নিং মডেল এবং অ্যালগরিদম নিয়ে পরীক্ষা করতে হবে।

Sklearn লাইব্রেরিতে ডেটাসেটের সম্পূর্ণ তালিকা

আইরিস
ডায়াবেটিস
অঙ্ক
লিনারুড
মদ
স্তন ক্যান্সার উইসকনসিন
বোস্টন হাউজিং
অলিভেটি ফেস
ক্যালিফোর্নিয়া হাউজিং
MNIST
ফ্যাশন-MNIST
make_classification
make_regression
make_blobs
make_moons এবং make_circles
তৈরি_স্পার্স_কোডেড_সিগন্যাল

প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট

1.

এই ডেটাসেটে সেপালের দৈর্ঘ্য, সেপালের প্রস্থ, পাপড়ির দৈর্ঘ্য এবং 150টি আইরিস ফুলের পাপড়ির প্রস্থের পরিমাপ রয়েছে, যা 3টি ভিন্ন প্রজাতির অন্তর্ভুক্ত: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা। আইরিস ডেটাসেটে 150টি সারি এবং 5টি কলাম রয়েছে, যা প্রতিটি ফুলের প্রজাতির জন্য একটি কলাম সহ ডেটাফ্রেম হিসাবে সংরক্ষণ করা হয়।

ভেরিয়েবলগুলির মধ্যে রয়েছে:

Sepal.Length - sepal.length সেপালের দৈর্ঘ্যকে সেন্টিমিটারে উপস্থাপন করে।
Sepal.Width - sepal.width সেপালের প্রস্থকে সেন্টিমিটারে উপস্থাপন করে।
Petal.Length - পাপড়ির দৈর্ঘ্য সেন্টিমিটারে পাপড়ির দৈর্ঘ্যকে প্রতিনিধিত্ব করে।
প্রজাতি - প্রজাতির পরিবর্তনশীল তিনটি সম্ভাব্য মান সহ আইরিস ফুলের প্রজাতিকে প্রতিনিধিত্ব করে: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা।

আপনি sklearn.datasets মডিউল থেকে load_iris ফাংশন ব্যবহার করে সরাসরি sklearn থেকে iris ডেটাসেট লোড করতে পারেন।

 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())

sklearn ব্যবহার করে আইরিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 27/3/2023 তারিখে।

2.

এই স্কলারন ডেটাসেটে ডেমোগ্রাফিক এবং ক্লিনিকাল পরিমাপ সহ 442 জন ডায়াবেটিস রোগীর তথ্য রয়েছে:

বয়স
সেক্স
বডি মাস ইনডেক্স (BMI)
গড় রক্তচাপ
ছয়টি রক্তের সিরাম পরিমাপ (যেমন মোট কোলেস্টেরল, কম ঘনত্বের লাইপোপ্রোটিন (এলডিএল) কোলেস্টেরল, উচ্চ ঘনত্বের লিপোপ্রোটিন (এইচডিএল) কোলেস্টেরল)।
ডায়াবেটিস রোগের অগ্রগতির একটি পরিমাণগত পরিমাপ (HbA1c)।

sklearn.datasets মডিউল থেকে load_diabetes() ফাংশন ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করা যেতে পারে।

 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())

sklearn ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 28/3/2023 তারিখে।

3.

এই sklearn ডেটাসেট হল 0 থেকে 9 পর্যন্ত হাতে লেখা অঙ্কের একটি সংগ্রহ, যা গ্রেস্কেল ছবি হিসেবে সংরক্ষিত। এটিতে মোট 1797টি নমুনা রয়েছে, প্রতিটি নমুনার সাথে একটি 2D আকারের অ্যারে (8,8)। ডিজিট স্ক্লিয়ার ডেটাসেটে 64টি ভেরিয়েবল (বা বৈশিষ্ট্য) রয়েছে, প্রতিটি অঙ্কের চিত্রের 64 পিক্সেলের সাথে সম্পর্কিত।

sklearn.datasets মডিউল থেকে load_digits() ফাংশন ব্যবহার করে অঙ্ক ডেটাসেট লোড করা যেতে পারে।

 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)

sklearn ব্যবহার করে ডিজিট ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।

4.

লিনারুড ডেটাসেটে 20 জন পেশাদার ক্রীড়াবিদদের শারীরিক এবং শারীরবৃত্তীয় পরিমাপ রয়েছে।

ডেটাসেটে নিম্নলিখিত ভেরিয়েবলগুলি রয়েছে:

তিনটি শারীরিক ব্যায়ামের ভেরিয়েবল - চিন-আপ, সিট-আপ এবং জাম্পিং জ্যাক।
তিনটি শারীরবৃত্তীয় পরিমাপের ভেরিয়েবল - নাড়ি, সিস্টোলিক রক্তচাপ এবং ডায়াস্টোলিক রক্তচাপ।

sklearn ব্যবহার করে পাইথনে Linnerud ডেটাসেট লোড করতে:

 from sklearn.datasets import load_linnerud linnerud = load_linnerud()

sklearn ব্যবহার করে linnerud ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 27/3/2023 তারিখে।

5.

এই স্কলারন ডেটাসেটে ইতালির একটি নির্দিষ্ট এলাকায় জন্মানো ওয়াইনগুলির রাসায়নিক বিশ্লেষণের ফলাফল রয়েছে, ওয়াইনগুলিকে তাদের সঠিক জাতের মধ্যে শ্রেণীবদ্ধ করতে।

ডেটাসেটের কিছু ভেরিয়েবল:

মদ
Malic অ্যাসিড
ছাই
ছাই এর ক্ষারত্ব
ম্যাগনেসিয়াম
মোট ফেনোলস
ফ্ল্যাভানয়েডস

sklearn.datasets মডিউল থেকে load_wine() ফাংশন ব্যবহার করে ওয়াইন ডেটাসেট লোড করা যেতে পারে।

 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names

sklearn ব্যবহার করে ওয়াইন কোয়ালিটি ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 28/3/2023 তারিখে।

6.

এই স্কলারন ডেটাসেটটি স্তন ক্যান্সারের টিউমার সম্পর্কে তথ্য নিয়ে গঠিত এবং এটি প্রাথমিকভাবে ড. উইলিয়াম এইচ. ওলবার্গ তৈরি করেছিলেন। ডেটাসেটটি গবেষক এবং মেশিন লার্নিং অনুশীলনকারীদের টিউমারগুলিকে ম্যালিগন্যান্ট (ক্যান্সারযুক্ত) বা সৌম্য (অ-ক্যান্সার) হিসাবে শ্রেণীবদ্ধ করতে সহায়তা করার জন্য তৈরি করা হয়েছিল।

এই ডেটাসেটে অন্তর্ভুক্ত কিছু ভেরিয়েবল:

আইডি নাম্বার
রোগ নির্ণয় (M = ম্যালিগন্যান্ট, B = সৌম্য)।
ব্যাসার্ধ (কেন্দ্র থেকে ঘেরের বিন্দু পর্যন্ত দূরত্বের গড়)।
টেক্সচার (ধূসর-স্কেল মানগুলির আদর্শ বিচ্যুতি)।
পরিধি
এলাকা
মসৃণতা (ব্যাসার্ধের দৈর্ঘ্যের স্থানীয় পরিবর্তন)।
কম্প্যাক্টনেস (ঘের^2 / এলাকা - 1.0)।
অবতলতা (কনট্যুরের অবতল অংশের তীব্রতা)।
অবতল বিন্দু (কনট্যুরের অবতল অংশের সংখ্যা)।
প্রতিসাম্য
ফ্র্যাক্টাল ডাইমেনশন ("কোস্টলাইন অ্যাপ্রোক্সিমেশন" - 1)।

আপনি sklearn.datasets মডিউল থেকে load_breast_cancer ফাংশন ব্যবহার করে সরাসরি sklearn থেকে ব্রেস্ট ক্যান্সার উইসকনসিন ডেটাসেট লোড করতে পারেন।

 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())

sklearn ব্যবহার করে স্তন ক্যান্সার উইসকনসিন ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 28/3/2023 তারিখে।

বাস্তব বিশ্ব Sklearn ডেটাসেট

রিয়েল ওয়ার্ল্ড স্ক্লিয়ার ডেটাসেটগুলি বাস্তব-বিশ্বের সমস্যার উপর ভিত্তি করে তৈরি করা হয়, সাধারণত পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে মেশিন লার্নিং অ্যালগরিদম এবং কৌশলগুলির অনুশীলন এবং পরীক্ষা করার জন্য ব্যবহৃত হয়।

7.

বোস্টন হাউজিং ডেটাসেটে বোস্টন, ম্যাসাচুসেটস এলাকার আবাসন সম্পর্কিত তথ্য রয়েছে। এতে প্রায় 506টি সারি এবং 14টি কলাম ডেটা রয়েছে।

ডেটাসেটের কিছু ভেরিয়েবলের মধ্যে রয়েছে:

CRIM - শহর অনুসারে মাথাপিছু অপরাধের হার।
ZN - আবাসিক জমির অনুপাত 25,000 বর্গফুটের বেশি লটের জন্য জোন করা হয়েছে।
INDUS - শহর প্রতি অ-খুচরা ব্যবসার একর অনুপাত।
CHAS - চার্লস রিভার ডামি পরিবর্তনশীল (= 1 যদি ট্র্যাক্ট নদীকে আবদ্ধ করে; অন্যথায় 0)।
NOX - নাইট্রিক অক্সাইড ঘনত্ব (প্রতি 10 মিলিয়ন অংশ)।
RM - প্রতি বাসস্থানে ঘরের গড় সংখ্যা।
AGE - 1940 সালের আগে নির্মিত মালিক-অধিকৃত ইউনিটগুলির অনুপাত।
DIS - পাঁচটি বোস্টন কর্মসংস্থান কেন্দ্রের ওজনযুক্ত দূরত্ব।
RAD - রেডিয়াল হাইওয়েতে অ্যাক্সেসযোগ্যতার সূচক।
ট্যাক্স - $10,000 প্রতি পূর্ণ-মূল্যের সম্পত্তি করের হার।
PTRATIO - শহর অনুসারে ছাত্র-শিক্ষক অনুপাত।
B - 1000(Bk - 0.63)^2 যেখানে -Bk হল শহর অনুসারে কালোদের অনুপাত।
LSTAT - জনসংখ্যার শতাংশ নিম্ন অবস্থা।
MEDV - $1000 এর মধ্যে মালিক-অধিকৃত বাড়ির গড় মান।

আপনি sklearn.datasets মডিউল থেকে load_boston ফাংশন ব্যবহার করে scikit-learn থেকে সরাসরি বোস্টন হাউজিং ডেটাসেট লোড করতে পারেন।

 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())

sklearn ব্যবহার করে বোস্টন হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।

8.

অলিভেটি ফেসেস ডেটাসেট হল AT&T ল্যাবরেটরিতে এপ্রিল 1992 এবং এপ্রিল 1994 এর মধ্যে তোলা মানুষের মুখের গ্রেস্কেল চিত্রগুলির একটি সংগ্রহ৷ এটিতে 10 জন ব্যক্তির 400টি ছবি রয়েছে, প্রতিটি ব্যক্তির 40টি ছবি বিভিন্ন কোণে এবং বিভিন্ন আলোর শর্তে তোলা হয়েছে৷

আপনি ডেটাসেট মডিউল থেকে fetch_olivetti_faces ফাংশন ব্যবহার করে sklearn-এ Olivetti Faces ডেটাসেট লোড করতে পারেন।

 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target

sklearn ব্যবহার করে Olivetti Faces ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।

9.

এই sklearn ডেটাসেটে মধ্যম ঘরের মান, সেইসাথে ক্যালিফোর্নিয়ায় আদমশুমারির ট্র্যাক্টের বৈশিষ্ট্যের তথ্য রয়েছে। এটি 20,640টি উদাহরণ এবং 8টি বৈশিষ্ট্যও অন্তর্ভুক্ত করে।

ডেটাসেটের কিছু ভেরিয়েবল:

MedInc - ব্লকের মধ্যবর্তী আয়।
হাউসএজ - ব্লকের ঘরগুলির গড় বয়স।
AveRooms - পরিবারের প্রতি কক্ষের গড় সংখ্যা।
AveBedrms - প্রতি পরিবারে বেডরুমের গড় সংখ্যা।
জনসংখ্যা - ব্লক জনসংখ্যা।
AveOccup - গড় পরিবারের দখল।
অক্ষাংশ - দশমিক ডিগ্রীতে ব্লকের অক্ষাংশ।
দ্রাঘিমাংশ - দশমিক ডিগ্রীতে ব্লকের দ্রাঘিমাংশ।

আপনি sklearn থেকে fetch_california_housing ফাংশন ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করতে পারেন।

 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target

sklearn ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।

10.

MNIST ডেটাসেট মেশিন লার্নিং এবং কম্পিউটার ভিশনের ক্ষেত্রে জনপ্রিয় এবং ব্যাপকভাবে ব্যবহৃত হয়। এটিতে হাতে লেখা 0-9 সংখ্যার 70,000টি গ্রেস্কেল চিত্র রয়েছে, যার মধ্যে 60,000টি প্রশিক্ষণের জন্য এবং 10,000টি পরীক্ষার জন্য রয়েছে। প্রতিটি চিত্রের আকার 28x28 পিক্সেল এবং একটি সংশ্লিষ্ট লেবেল রয়েছে যা নির্দেশ করে যে এটি কোন সংখ্যাগুলিকে প্রতিনিধিত্ব করে৷

আপনি নিম্নলিখিত কোড ব্যবহার করে sklearn থেকে MNIST ডেটাসেট লোড করতে পারেন:

 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')

দ্রষ্টব্য: MNIST ডেটাসেট হল সংখ্যা ডেটাসেটের একটি উপসেট৷

sklearn ব্যবহার করে MNIST ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

11.

ফ্যাশন MNIST ডেটাসেটটি মূল MNIST ডেটাসেটের প্রতিস্থাপন হিসাবে Zalando রিসার্চ দ্বারা তৈরি করা হয়েছিল। ফ্যাশন MNIST ডেটাসেটে 70,000টি গ্রেস্কেল ছবি (60,000টির প্রশিক্ষণ সেট এবং 10,000টির একটি পরীক্ষামূলক সেট) পোশাকের আইটেম রয়েছে।

চিত্রগুলি 28x28 পিক্সেল আকারের এবং টি-শার্ট/টপস, ট্রাউজার, পুলওভার, ড্রেস, কোট, স্যান্ডেল, শার্ট, স্নিকার, ব্যাগ এবং গোড়ালি বুট সহ 10টি বিভিন্ন শ্রেণীর পোশাকের আইটেমগুলিকে উপস্থাপন করে৷ এটি মূল MNIST ডেটাসেটের অনুরূপ, তবে পোশাকের আইটেমগুলির বৃহত্তর জটিলতা এবং বৈচিত্র্যের কারণে আরও চ্যালেঞ্জিং শ্রেণীবিভাগের কাজ রয়েছে৷

আপনি fetch_openml ফাংশন ব্যবহার করে এই sklearn ডেটাসেট লোড করতে পারেন।

 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')

sklearn ব্যবহার করে ফ্যাশন MNIST ডেটাসেট লোড করার জন্য কোড। __ থেকে 30/3/2023 তারিখে সংগৃহীত।

উত্পন্ন Sklearn ডেটাসেট

জেনারেটেড স্ক্লিয়ার ডেটাসেট হল সিন্থেটিক ডেটাসেট, পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে তৈরি করা হয়। এগুলি পরীক্ষা, বেঞ্চমার্কিং এবং মেশিন লার্নিং অ্যালগরিদম/মডেল তৈরির জন্য ব্যবহার করা হয়।

12।

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং তথ্যপূর্ণ বৈশিষ্ট্য সহ একটি এলোমেলো এন-শ্রেণি শ্রেণিবিন্যাস ডেটাসেট তৈরি করে।

100টি নমুনা, 5টি বৈশিষ্ট্য এবং 3টি ক্লাস সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:

 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস এবং 3টি তথ্যপূর্ণ বৈশিষ্ট্য রয়েছে৷ অবশিষ্ট বৈশিষ্ট্যগুলি অপ্রয়োজনীয় বা গোলমাল হবে।

sklearn ব্যবহার করে make_classification ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

13.

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং শব্দ সহ একটি র্যান্ডম রিগ্রেশন ডেটাসেট তৈরি করে৷

এখানে 100টি নমুনা, 5টি বৈশিষ্ট্য এবং 0.1 এর নয়েজ লেভেল সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য একটি উদাহরণ কোড রয়েছে:

 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার শব্দের মাত্রা 0.1। টার্গেট ভেরিয়েবল y একটি অবিচ্ছিন্ন পরিবর্তনশীল হবে।

sklearn ব্যবহার করে make_regression ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

14.

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা এবং ক্লাস্টার সহ একটি র্যান্ডম ডেটাসেট তৈরি করে৷

100টি নমুনা এবং 3টি ক্লাস্টার সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:

 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)

এই কোডটি 100টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস্টার এলোমেলো অবস্থানে কেন্দ্রীভূত হয় এবং কোনও শব্দ ছাড়াই৷

sklearn ব্যবহার করে make_blobs ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

15। এবং

এই ফাংশনগুলি অ-রৈখিক সীমানা সহ ডেটাসেট তৈরি করে যা অ-রৈখিক শ্রেণিবিন্যাস অ্যালগরিদম পরীক্ষা করার জন্য দরকারী।

make_moons ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:

sklearn.datasets থেকে make_moons আমদানি করুন X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)

এই কোডটি 1000টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ দুটি শ্রেণীর মধ্যে একটি অ-রৈখিক সীমানা সহ একটি ডেটাসেট তৈরি করে এবং ডেটাতে যোগ করা গাউসিয়ান শব্দের 0.2 স্ট্যান্ডার্ড বিচ্যুতি সহ।

sklearn ব্যবহার করে make_moons ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

make_circles ডেটাসেট তৈরি এবং লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:

 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

sklearn ব্যবহার করে make_circles ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

16.

এই ফাংশনটি একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে যা কম্প্রেসিভ সেন্সিং অ্যালগরিদম পরীক্ষা করার জন্য উপযোগী।

এই sklearn ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:

 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

এই কোডটি 100টি নমুনা, 50টি বৈশিষ্ট্য এবং 10টি পরমাণু সহ একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে৷

sklearn ব্যবহার করে make_sparse_coded_signal ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

Sklearn ডেটাসেটের জন্য সাধারণ ব্যবহারের ক্ষেত্রে

প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট

- এই sklearn ডেটাসেটটি সাধারণত শ্রেণিবিন্যাসের কাজের জন্য ব্যবহৃত হয় এবং শ্রেণীবিভাগ অ্যালগরিদম পরীক্ষা করার জন্য একটি বেঞ্চমার্ক ডেটাসেট হিসাবে ব্যবহৃত হয়।

- এই ডেটাসেটে ডায়াবেটিস রোগীদের চিকিৎসা সংক্রান্ত তথ্য রয়েছে এবং স্বাস্থ্যসেবা বিশ্লেষণে শ্রেণীবিভাগ এবং রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।

- এই sklearn ডেটাসেটে হাতে লেখা অঙ্কের ছবি থাকে এবং সাধারণত ইমেজ শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।

- এই ডেটাসেটে 20 জন ক্রীড়াবিদদের শারীরিক ফিটনেস এবং মেডিকেল ডেটা রয়েছে এবং এটি সাধারণত মাল্টিভেরিয়েট রিগ্রেশন বিশ্লেষণের জন্য ব্যবহৃত হয়।

- এই স্কলারন ডেটাসেটে ওয়াইনগুলির রাসায়নিক বিশ্লেষণ রয়েছে এবং এটি সাধারণত শ্রেণীবিভাগ এবং ক্লাস্টারিং কাজের জন্য ব্যবহৃত হয়।

- এই ডেটাসেটে স্তন ক্যান্সারের রোগীদের চিকিৎসা সংক্রান্ত তথ্য রয়েছে এবং সাধারণত স্বাস্থ্যসেবা বিশ্লেষণে শ্রেণীবিভাগের কাজে ব্যবহৃত হয়।

বাস্তব বিশ্ব Sklearn ডেটাসেট

- এই sklearn ডেটাসেটে বোস্টনের আবাসন সম্পর্কিত তথ্য রয়েছে এবং এটি সাধারণত রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।

- এই ডেটাসেটে মুখের গ্রেস্কেল চিত্র রয়েছে এবং এটি সাধারণত চিত্র শ্রেণীবিভাগ এবং মুখের শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।

- এই sklearn ডেটাসেটে ক্যালিফোর্নিয়ার আবাসন সম্পর্কিত তথ্য রয়েছে এবং এটি সাধারণত রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।

- এই ডেটাসেটে হাতে লেখা অঙ্কের ছবি থাকে এবং সাধারণত ইমেজ শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।

- এই sklearn ডেটাসেটে পোশাকের আইটেমগুলির ছবি রয়েছে এবং এটি সাধারণত চিত্র শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।

উত্পন্ন Sklearn ডেটাসেট

- এই ডেটাসেটটি বাইনারি এবং মাল্টিক্লাস শ্রেণীবিভাগের কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।

- এই ডেটাসেটটি রিগ্রেশন কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।

- এই sklearn ডেটাসেটটি ক্লাস্টারিং কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।

এবং - এই ডেটাসেটগুলি শ্রেণীবিভাগের কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট এবং সাধারণত ননলাইনার ক্লাসিফায়ারগুলি পরীক্ষা করার জন্য ব্যবহৃত হয়।

- এই ডেটাসেটটি সংকেত প্রক্রিয়াকরণে স্পার্স কোডিং কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।

সর্বশেষ ভাবনা

স্কলার্ন ডেটাসেটগুলি ম্যানুয়ালি ডেটা সংগ্রহ এবং প্রিপ্রসেস না করেই ডেভেলপার এবং গবেষকদের মেশিন লার্নিং মডেলগুলি পরীক্ষা ও মূল্যায়ন করার জন্য একটি সুবিধাজনক উপায় প্রদান করে।

এগুলি যে কেউ ডাউনলোড করতে এবং অবাধে ব্যবহার করার জন্য উপলব্ধ।

প্রম্পট 'আইরিস ডেটাসেট' ব্যবহার করে হ্যাকারনুনের এআই স্টেবল ডিফিউশন মডেলের মাধ্যমে এই নিবন্ধের প্রধান চিত্র তৈরি করা হয়েছে।

আরও ডেটাসেট তালিকা: