paint-brush
বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেট দ্বারা@datasets
29,017 পড়া
29,017 পড়া

বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেট

দ্বারা Open Datasets Compiled by HackerNoon12m2023/04/15
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

Sklearn হল SciPy-এর উপরে তৈরি মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটির বিস্তৃত অ্যালগরিদম এবং ব্যবহারের সহজতার কারণে এটি অনন্য। ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন। Sklearn উচ্চ মানের ডেটাসেট অফার করে যা গবেষক, অনুশীলনকারী এবং উত্সাহীদের দ্বারা ব্যাপকভাবে ব্যবহৃত হয়।
featured image - বিল্ডিং মেশিন লার্নিং মডেলের জন্য 16 সেরা Sklearn ডেটাসেট
Open Datasets Compiled by HackerNoon HackerNoon profile picture

ডেটা পাওয়ার মেশিন লার্নিং অ্যালগরিদম এবং স্কিট-লার্ন বা sklearn উচ্চ মানের ডেটাসেট অফার করে যা গবেষক, অনুশীলনকারী এবং উত্সাহীদের দ্বারা ব্যাপকভাবে ব্যবহৃত হয়। Scikit-learn (sklearn) হল SciPy-এর উপরে নির্মিত মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটির বিস্তৃত অ্যালগরিদম, ব্যবহারের সহজতা এবং অন্যান্য পাইথন লাইব্রেরির সাথে একীকরণের কারণে এটি অনন্য।

"Sklearn Datasets" কি?

স্কলার্ন ডেটাসেটগুলি স্কিট-লার্নের অংশ হিসাবে অন্তর্ভুক্ত করা হয়েছে ( sklearn ) লাইব্রেরি, তাই তারা লাইব্রেরির সাথে প্রি-ইনস্টল করে আসে। এই কারণে, আপনি এই ডেটাসেটগুলিকে আলাদাভাবে ডাউনলোড না করে সহজেই অ্যাক্সেস এবং লোড করতে পারেন৷


একটি নির্দিষ্ট ডেটাসেট ব্যবহার করতে, আপনি কেবল sklearn.datasets মডিউল থেকে এটি আমদানি করতে পারেন এবং আপনার প্রোগ্রামে ডেটা লোড করার জন্য উপযুক্ত ফাংশনটি কল করতে পারেন।


এই ডেটাসেটগুলি সাধারণত প্রাক-প্রক্রিয়াজাত এবং ব্যবহারের জন্য প্রস্তুত, যা ডেটা অনুশীলনকারীদের জন্য সময় এবং শ্রম বাঁচায় যাদের বিভিন্ন মেশিন লার্নিং মডেল এবং অ্যালগরিদম নিয়ে পরীক্ষা করতে হবে।

Sklearn লাইব্রেরিতে ডেটাসেটের সম্পূর্ণ তালিকা

  1. আইরিস
  2. ডায়াবেটিস
  3. অঙ্ক
  4. লিনারুড
  5. মদ
  6. স্তন ক্যান্সার উইসকনসিন
  7. বোস্টন হাউজিং
  8. অলিভেটি ফেস
  9. ক্যালিফোর্নিয়া হাউজিং
  10. MNIST
  11. ফ্যাশন-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. make_moons এবং make_circles
  16. তৈরি_স্পার্স_কোডেড_সিগন্যাল

প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট

1.

এই ডেটাসেটে সেপালের দৈর্ঘ্য, সেপালের প্রস্থ, পাপড়ির দৈর্ঘ্য এবং 150টি আইরিস ফুলের পাপড়ির প্রস্থের পরিমাপ রয়েছে, যা 3টি ভিন্ন প্রজাতির অন্তর্ভুক্ত: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা। আইরিস ডেটাসেটে 150টি সারি এবং 5টি কলাম রয়েছে, যা প্রতিটি ফুলের প্রজাতির জন্য একটি কলাম সহ ডেটাফ্রেম হিসাবে সংরক্ষণ করা হয়।


ভেরিয়েবলগুলির মধ্যে রয়েছে:


  • Sepal.Length - sepal.length সেপালের দৈর্ঘ্যকে সেন্টিমিটারে উপস্থাপন করে।
  • Sepal.Width - sepal.width সেপালের প্রস্থকে সেন্টিমিটারে উপস্থাপন করে।
  • Petal.Length - পাপড়ির দৈর্ঘ্য সেন্টিমিটারে পাপড়ির দৈর্ঘ্যকে প্রতিনিধিত্ব করে।
  • প্রজাতি - প্রজাতির পরিবর্তনশীল তিনটি সম্ভাব্য মান সহ আইরিস ফুলের প্রজাতিকে প্রতিনিধিত্ব করে: সেটোসা, ভার্সিকলার এবং ভার্জিনিকা।


আপনি sklearn.datasets মডিউল থেকে load_iris ফাংশন ব্যবহার করে সরাসরি sklearn থেকে iris ডেটাসেট লোড করতে পারেন।


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


sklearn ব্যবহার করে আইরিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 27/3/2023 তারিখে।

2.

এই স্কলারন ডেটাসেটে ডেমোগ্রাফিক এবং ক্লিনিকাল পরিমাপ সহ 442 জন ডায়াবেটিস রোগীর তথ্য রয়েছে:

  • বয়স
  • সেক্স
  • বডি মাস ইনডেক্স (BMI)
  • গড় রক্তচাপ
  • ছয়টি রক্তের সিরাম পরিমাপ (যেমন মোট কোলেস্টেরল, কম ঘনত্বের লাইপোপ্রোটিন (এলডিএল) কোলেস্টেরল, উচ্চ ঘনত্বের লিপোপ্রোটিন (এইচডিএল) কোলেস্টেরল)।
  • ডায়াবেটিস রোগের অগ্রগতির একটি পরিমাণগত পরিমাপ (HbA1c)।


sklearn.datasets মডিউল থেকে load_diabetes() ফাংশন ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করা যেতে পারে।


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


sklearn ব্যবহার করে ডায়াবেটিস ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 28/3/2023 তারিখে।

3.

এই sklearn ডেটাসেট হল 0 থেকে 9 পর্যন্ত হাতে লেখা অঙ্কের একটি সংগ্রহ, যা গ্রেস্কেল ছবি হিসেবে সংরক্ষিত। এটিতে মোট 1797টি নমুনা রয়েছে, প্রতিটি নমুনার সাথে একটি 2D আকারের অ্যারে (8,8)। ডিজিট স্ক্লিয়ার ডেটাসেটে 64টি ভেরিয়েবল (বা বৈশিষ্ট্য) রয়েছে, প্রতিটি অঙ্কের চিত্রের 64 পিক্সেলের সাথে সম্পর্কিত।


sklearn.datasets মডিউল থেকে load_digits() ফাংশন ব্যবহার করে অঙ্ক ডেটাসেট লোড করা যেতে পারে।


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


sklearn ব্যবহার করে ডিজিট ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।


4.

লিনারুড ডেটাসেটে 20 জন পেশাদার ক্রীড়াবিদদের শারীরিক এবং শারীরবৃত্তীয় পরিমাপ রয়েছে।


ডেটাসেটে নিম্নলিখিত ভেরিয়েবলগুলি রয়েছে:


  • তিনটি শারীরিক ব্যায়ামের ভেরিয়েবল - চিন-আপ, সিট-আপ এবং জাম্পিং জ্যাক।
  • তিনটি শারীরবৃত্তীয় পরিমাপের ভেরিয়েবল - নাড়ি, সিস্টোলিক রক্তচাপ এবং ডায়াস্টোলিক রক্তচাপ।


sklearn ব্যবহার করে পাইথনে Linnerud ডেটাসেট লোড করতে:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


sklearn ব্যবহার করে linnerud ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 27/3/2023 তারিখে।

5.

এই স্কলারন ডেটাসেটে ইতালির একটি নির্দিষ্ট এলাকায় জন্মানো ওয়াইনগুলির রাসায়নিক বিশ্লেষণের ফলাফল রয়েছে, ওয়াইনগুলিকে তাদের সঠিক জাতের মধ্যে শ্রেণীবদ্ধ করতে।


ডেটাসেটের কিছু ভেরিয়েবল:


  • মদ
  • Malic অ্যাসিড
  • ছাই
  • ছাই এর ক্ষারত্ব
  • ম্যাগনেসিয়াম
  • মোট ফেনোলস
  • ফ্ল্যাভানয়েডস


sklearn.datasets মডিউল থেকে load_wine() ফাংশন ব্যবহার করে ওয়াইন ডেটাসেট লোড করা যেতে পারে।


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


sklearn ব্যবহার করে ওয়াইন কোয়ালিটি ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 28/3/2023 তারিখে।

6.

এই স্কলারন ডেটাসেটটি স্তন ক্যান্সারের টিউমার সম্পর্কে তথ্য নিয়ে গঠিত এবং এটি প্রাথমিকভাবে ড. উইলিয়াম এইচ. ওলবার্গ তৈরি করেছিলেন। ডেটাসেটটি গবেষক এবং মেশিন লার্নিং অনুশীলনকারীদের টিউমারগুলিকে ম্যালিগন্যান্ট (ক্যান্সারযুক্ত) বা সৌম্য (অ-ক্যান্সার) হিসাবে শ্রেণীবদ্ধ করতে সহায়তা করার জন্য তৈরি করা হয়েছিল।


এই ডেটাসেটে অন্তর্ভুক্ত কিছু ভেরিয়েবল:


  • আইডি নাম্বার
  • রোগ নির্ণয় (M = ম্যালিগন্যান্ট, B = সৌম্য)।
  • ব্যাসার্ধ (কেন্দ্র থেকে ঘেরের বিন্দু পর্যন্ত দূরত্বের গড়)।
  • টেক্সচার (ধূসর-স্কেল মানগুলির আদর্শ বিচ্যুতি)।
  • পরিধি
  • এলাকা
  • মসৃণতা (ব্যাসার্ধের দৈর্ঘ্যের স্থানীয় পরিবর্তন)।
  • কম্প্যাক্টনেস (ঘের^2 / এলাকা - 1.0)।
  • অবতলতা (কনট্যুরের অবতল অংশের তীব্রতা)।
  • অবতল বিন্দু (কনট্যুরের অবতল অংশের সংখ্যা)।
  • প্রতিসাম্য
  • ফ্র্যাক্টাল ডাইমেনশন ("কোস্টলাইন অ্যাপ্রোক্সিমেশন" - 1)।


আপনি sklearn.datasets মডিউল থেকে load_breast_cancer ফাংশন ব্যবহার করে সরাসরি sklearn থেকে ব্রেস্ট ক্যান্সার উইসকনসিন ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


sklearn ব্যবহার করে স্তন ক্যান্সার উইসকনসিন ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 28/3/2023 তারিখে।


স্তন ক্যান্সার উইসকনসিন ডেটাসেট

বাস্তব বিশ্ব Sklearn ডেটাসেট

রিয়েল ওয়ার্ল্ড স্ক্লিয়ার ডেটাসেটগুলি বাস্তব-বিশ্বের সমস্যার উপর ভিত্তি করে তৈরি করা হয়, সাধারণত পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে মেশিন লার্নিং অ্যালগরিদম এবং কৌশলগুলির অনুশীলন এবং পরীক্ষা করার জন্য ব্যবহৃত হয়।

7.

বোস্টন হাউজিং ডেটাসেটে বোস্টন, ম্যাসাচুসেটস এলাকার আবাসন সম্পর্কিত তথ্য রয়েছে। এতে প্রায় 506টি সারি এবং 14টি কলাম ডেটা রয়েছে।


ডেটাসেটের কিছু ভেরিয়েবলের মধ্যে রয়েছে:


  • CRIM - শহর অনুসারে মাথাপিছু অপরাধের হার।
  • ZN - আবাসিক জমির অনুপাত 25,000 বর্গফুটের বেশি লটের জন্য জোন করা হয়েছে।
  • INDUS - শহর প্রতি অ-খুচরা ব্যবসার একর অনুপাত।
  • CHAS - চার্লস রিভার ডামি পরিবর্তনশীল (= 1 যদি ট্র্যাক্ট নদীকে আবদ্ধ করে; অন্যথায় 0)।
  • NOX - নাইট্রিক অক্সাইড ঘনত্ব (প্রতি 10 মিলিয়ন অংশ)।
  • RM - প্রতি বাসস্থানে ঘরের গড় সংখ্যা।
  • AGE - 1940 সালের আগে নির্মিত মালিক-অধিকৃত ইউনিটগুলির অনুপাত।
  • DIS - পাঁচটি বোস্টন কর্মসংস্থান কেন্দ্রের ওজনযুক্ত দূরত্ব।
  • RAD - রেডিয়াল হাইওয়েতে অ্যাক্সেসযোগ্যতার সূচক।
  • ট্যাক্স - $10,000 প্রতি পূর্ণ-মূল্যের সম্পত্তি করের হার।
  • PTRATIO - শহর অনুসারে ছাত্র-শিক্ষক অনুপাত।
  • B - 1000(Bk - 0.63)^2 যেখানে -Bk হল শহর অনুসারে কালোদের অনুপাত।
  • LSTAT - জনসংখ্যার শতাংশ নিম্ন অবস্থা।
  • MEDV - $1000 এর মধ্যে মালিক-অধিকৃত বাড়ির গড় মান।


আপনি sklearn.datasets মডিউল থেকে load_boston ফাংশন ব্যবহার করে scikit-learn থেকে সরাসরি বোস্টন হাউজিং ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


sklearn ব্যবহার করে বোস্টন হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।

8.

অলিভেটি ফেসেস ডেটাসেট হল AT&T ল্যাবরেটরিতে এপ্রিল 1992 এবং এপ্রিল 1994 এর মধ্যে তোলা মানুষের মুখের গ্রেস্কেল চিত্রগুলির একটি সংগ্রহ৷ এটিতে 10 জন ব্যক্তির 400টি ছবি রয়েছে, প্রতিটি ব্যক্তির 40টি ছবি বিভিন্ন কোণে এবং বিভিন্ন আলোর শর্তে তোলা হয়েছে৷


আপনি ডেটাসেট মডিউল থেকে fetch_olivetti_faces ফাংশন ব্যবহার করে sklearn-এ Olivetti Faces ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


sklearn ব্যবহার করে Olivetti Faces ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।

9.

এই sklearn ডেটাসেটে মধ্যম ঘরের মান, সেইসাথে ক্যালিফোর্নিয়ায় আদমশুমারির ট্র্যাক্টের বৈশিষ্ট্যের তথ্য রয়েছে। এটি 20,640টি উদাহরণ এবং 8টি বৈশিষ্ট্যও অন্তর্ভুক্ত করে।


ডেটাসেটের কিছু ভেরিয়েবল:


  • MedInc - ব্লকের মধ্যবর্তী আয়।
  • হাউসএজ - ব্লকের ঘরগুলির গড় বয়স।
  • AveRooms - পরিবারের প্রতি কক্ষের গড় সংখ্যা।
  • AveBedrms - প্রতি পরিবারে বেডরুমের গড় সংখ্যা।
  • জনসংখ্যা - ব্লক জনসংখ্যা।
  • AveOccup - গড় পরিবারের দখল।
  • অক্ষাংশ - দশমিক ডিগ্রীতে ব্লকের অক্ষাংশ।
  • দ্রাঘিমাংশ - দশমিক ডিগ্রীতে ব্লকের দ্রাঘিমাংশ।


আপনি sklearn থেকে fetch_california_housing ফাংশন ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


sklearn ব্যবহার করে ক্যালিফোর্নিয়া হাউজিং ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 29/3/2023 তারিখে।

10.

MNIST ডেটাসেট মেশিন লার্নিং এবং কম্পিউটার ভিশনের ক্ষেত্রে জনপ্রিয় এবং ব্যাপকভাবে ব্যবহৃত হয়। এটিতে হাতে লেখা 0-9 সংখ্যার 70,000টি গ্রেস্কেল চিত্র রয়েছে, যার মধ্যে 60,000টি প্রশিক্ষণের জন্য এবং 10,000টি পরীক্ষার জন্য রয়েছে। প্রতিটি চিত্রের আকার 28x28 পিক্সেল এবং একটি সংশ্লিষ্ট লেবেল রয়েছে যা নির্দেশ করে যে এটি কোন সংখ্যাগুলিকে প্রতিনিধিত্ব করে৷


আপনি নিম্নলিখিত কোড ব্যবহার করে sklearn থেকে MNIST ডেটাসেট লোড করতে পারেন:


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


দ্রষ্টব্য: MNIST ডেটাসেট হল সংখ্যা ডেটাসেটের একটি উপসেট৷


sklearn ব্যবহার করে MNIST ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।


11.

ফ্যাশন MNIST ডেটাসেটটি মূল MNIST ডেটাসেটের প্রতিস্থাপন হিসাবে Zalando রিসার্চ দ্বারা তৈরি করা হয়েছিল। ফ্যাশন MNIST ডেটাসেটে 70,000টি গ্রেস্কেল ছবি (60,000টির প্রশিক্ষণ সেট এবং 10,000টির একটি পরীক্ষামূলক সেট) পোশাকের আইটেম রয়েছে।


চিত্রগুলি 28x28 পিক্সেল আকারের এবং টি-শার্ট/টপস, ট্রাউজার, পুলওভার, ড্রেস, কোট, স্যান্ডেল, শার্ট, স্নিকার, ব্যাগ এবং গোড়ালি বুট সহ 10টি বিভিন্ন শ্রেণীর পোশাকের আইটেমগুলিকে উপস্থাপন করে৷ এটি মূল MNIST ডেটাসেটের অনুরূপ, তবে পোশাকের আইটেমগুলির বৃহত্তর জটিলতা এবং বৈচিত্র্যের কারণে আরও চ্যালেঞ্জিং শ্রেণীবিভাগের কাজ রয়েছে৷


আপনি fetch_openml ফাংশন ব্যবহার করে এই sklearn ডেটাসেট লোড করতে পারেন।


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


sklearn ব্যবহার করে ফ্যাশন MNIST ডেটাসেট লোড করার জন্য কোড। __ থেকে 30/3/2023 তারিখে সংগৃহীত।

উত্পন্ন Sklearn ডেটাসেট

জেনারেটেড স্ক্লিয়ার ডেটাসেট হল সিন্থেটিক ডেটাসেট, পাইথনের স্ক্লিয়ার লাইব্রেরি ব্যবহার করে তৈরি করা হয়। এগুলি পরীক্ষা, বেঞ্চমার্কিং এবং মেশিন লার্নিং অ্যালগরিদম/মডেল তৈরির জন্য ব্যবহার করা হয়।

12।

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং তথ্যপূর্ণ বৈশিষ্ট্য সহ একটি এলোমেলো এন-শ্রেণি শ্রেণিবিন্যাস ডেটাসেট তৈরি করে।


100টি নমুনা, 5টি বৈশিষ্ট্য এবং 3টি ক্লাস সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস এবং 3টি তথ্যপূর্ণ বৈশিষ্ট্য রয়েছে৷ অবশিষ্ট বৈশিষ্ট্যগুলি অপ্রয়োজনীয় বা গোলমাল হবে।


sklearn ব্যবহার করে make_classification ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

13.

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা, বৈশিষ্ট্য এবং শব্দ সহ একটি র্যান্ডম রিগ্রেশন ডেটাসেট তৈরি করে৷


এখানে 100টি নমুনা, 5টি বৈশিষ্ট্য এবং 0.1 এর নয়েজ লেভেল সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


এই কোডটি 100টি নমুনা এবং 5টি বৈশিষ্ট্য সহ একটি ডেটাসেট তৈরি করে, যার শব্দের মাত্রা 0.1। টার্গেট ভেরিয়েবল y একটি অবিচ্ছিন্ন পরিবর্তনশীল হবে।


sklearn ব্যবহার করে make_regression ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

14.

এই ফাংশনটি একটি নির্দিষ্ট সংখ্যক নমুনা এবং ক্লাস্টার সহ একটি র্যান্ডম ডেটাসেট তৈরি করে৷


100টি নমুনা এবং 3টি ক্লাস্টার সহ এই স্কলারন ডেটাসেট তৈরি করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


এই কোডটি 100টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ একটি ডেটাসেট তৈরি করে, যার মধ্যে 3টি ক্লাস্টার এলোমেলো অবস্থানে কেন্দ্রীভূত হয় এবং কোনও শব্দ ছাড়াই৷


sklearn ব্যবহার করে make_blobs ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

15। এবং

এই ফাংশনগুলি অ-রৈখিক সীমানা সহ ডেটাসেট তৈরি করে যা অ-রৈখিক শ্রেণিবিন্যাস অ্যালগরিদম পরীক্ষা করার জন্য দরকারী।


make_moons ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


sklearn.datasets থেকে make_moons আমদানি করুন X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)


এই কোডটি 1000টি নমুনা এবং 2টি বৈশিষ্ট্য (x এবং y স্থানাঙ্ক) সহ দুটি শ্রেণীর মধ্যে একটি অ-রৈখিক সীমানা সহ একটি ডেটাসেট তৈরি করে এবং ডেটাতে যোগ করা গাউসিয়ান শব্দের 0.2 স্ট্যান্ডার্ড বিচ্যুতি সহ।


sklearn ব্যবহার করে make_moons ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।


make_circles ডেটাসেট তৈরি এবং লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


sklearn ব্যবহার করে make_circles ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।

16.

এই ফাংশনটি একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে যা কম্প্রেসিভ সেন্সিং অ্যালগরিদম পরীক্ষা করার জন্য উপযোগী।


এই sklearn ডেটাসেট লোড করার জন্য এখানে একটি উদাহরণ কোড রয়েছে:


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


এই কোডটি 100টি নমুনা, 50টি বৈশিষ্ট্য এবং 10টি পরমাণু সহ একটি স্পার্স কোডেড সিগন্যাল ডেটাসেট তৈরি করে৷


sklearn ব্যবহার করে make_sparse_coded_signal ডেটাসেট লোড করার জন্য কোড। থেকে উদ্ধার 30/3/2023 তারিখে।


Sklearn ডেটাসেটের জন্য সাধারণ ব্যবহারের ক্ষেত্রে

প্রি-ইনস্টলড (টয়) স্ক্লিয়ার ডেটাসেট

- এই sklearn ডেটাসেটটি সাধারণত শ্রেণিবিন্যাসের কাজের জন্য ব্যবহৃত হয় এবং শ্রেণীবিভাগ অ্যালগরিদম পরীক্ষা করার জন্য একটি বেঞ্চমার্ক ডেটাসেট হিসাবে ব্যবহৃত হয়।


- এই ডেটাসেটে ডায়াবেটিস রোগীদের চিকিৎসা সংক্রান্ত তথ্য রয়েছে এবং স্বাস্থ্যসেবা বিশ্লেষণে শ্রেণীবিভাগ এবং রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।


- এই sklearn ডেটাসেটে হাতে লেখা অঙ্কের ছবি থাকে এবং সাধারণত ইমেজ শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।


- এই ডেটাসেটে 20 জন ক্রীড়াবিদদের শারীরিক ফিটনেস এবং মেডিকেল ডেটা রয়েছে এবং এটি সাধারণত মাল্টিভেরিয়েট রিগ্রেশন বিশ্লেষণের জন্য ব্যবহৃত হয়।


- এই স্কলারন ডেটাসেটে ওয়াইনগুলির রাসায়নিক বিশ্লেষণ রয়েছে এবং এটি সাধারণত শ্রেণীবিভাগ এবং ক্লাস্টারিং কাজের জন্য ব্যবহৃত হয়।


- এই ডেটাসেটে স্তন ক্যান্সারের রোগীদের চিকিৎসা সংক্রান্ত তথ্য রয়েছে এবং সাধারণত স্বাস্থ্যসেবা বিশ্লেষণে শ্রেণীবিভাগের কাজে ব্যবহৃত হয়।

বাস্তব বিশ্ব Sklearn ডেটাসেট

- এই sklearn ডেটাসেটে বোস্টনের আবাসন সম্পর্কিত তথ্য রয়েছে এবং এটি সাধারণত রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।


- এই ডেটাসেটে মুখের গ্রেস্কেল চিত্র রয়েছে এবং এটি সাধারণত চিত্র শ্রেণীবিভাগ এবং মুখের শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।


- এই sklearn ডেটাসেটে ক্যালিফোর্নিয়ার আবাসন সম্পর্কিত তথ্য রয়েছে এবং এটি সাধারণত রিগ্রেশন কাজের জন্য ব্যবহৃত হয়।


- এই ডেটাসেটে হাতে লেখা অঙ্কের ছবি থাকে এবং সাধারণত ইমেজ শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।


- এই sklearn ডেটাসেটে পোশাকের আইটেমগুলির ছবি রয়েছে এবং এটি সাধারণত চিত্র শ্রেণীবিভাগ এবং প্যাটার্ন শনাক্তকরণ কাজের জন্য ব্যবহৃত হয়।

উত্পন্ন Sklearn ডেটাসেট

- এই ডেটাসেটটি বাইনারি এবং মাল্টিক্লাস শ্রেণীবিভাগের কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।


- এই ডেটাসেটটি রিগ্রেশন কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।


- এই sklearn ডেটাসেটটি ক্লাস্টারিং কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।


এবং - এই ডেটাসেটগুলি শ্রেণীবিভাগের কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট এবং সাধারণত ননলাইনার ক্লাসিফায়ারগুলি পরীক্ষা করার জন্য ব্যবহৃত হয়।


- এই ডেটাসেটটি সংকেত প্রক্রিয়াকরণে স্পার্স কোডিং কাজের জন্য এলোমেলোভাবে তৈরি করা ডেটাসেট।

সর্বশেষ ভাবনা

স্কলার্ন ডেটাসেটগুলি ম্যানুয়ালি ডেটা সংগ্রহ এবং প্রিপ্রসেস না করেই ডেভেলপার এবং গবেষকদের মেশিন লার্নিং মডেলগুলি পরীক্ষা ও মূল্যায়ন করার জন্য একটি সুবিধাজনক উপায় প্রদান করে।


এগুলি যে কেউ ডাউনলোড করতে এবং অবাধে ব্যবহার করার জন্য উপলব্ধ।

প্রম্পট 'আইরিস ডেটাসেট' ব্যবহার করে হ্যাকারনুনের এআই স্টেবল ডিফিউশন মডেলের মাধ্যমে এই নিবন্ধের প্রধান চিত্র তৈরি করা হয়েছে।


আরও ডেটাসেট তালিকা:

  1. এক্সেল ডেটাসেট
  2. কেরাস ডেটাসেট
  3. আর ডেটাসেট


바카라사이트 바카라사이트 온라인바카라