paint-brush
機械学習モデルの構築に最適な 16 の Sklearn データセット に@datasets
28,945 測定値
28,945 測定値

機械学習モデルの構築に最適な 16 の Sklearn データセット

長すぎる; 読むには

Sklearn は、SciPy の上に構築された機械学習用の Python モジュールです。幅広いアルゴリズムと使いやすさが特徴です。データは、機械学習アルゴリズムと scikit-learn を強化します。 Sklearn は、研究者、実務家、愛好家によって広く使用されている高品質のデータセットを提供します。
featured image - 機械学習モデルの構築に最適な 16 の Sklearn データセット
Open Datasets Compiled by HackerNoon HackerNoon profile picture

データは機械学習アルゴリズムと scikit-learn またはsklearn研究者、実務家、愛好家によって広く使用されている高品質のデータセットを提供します。 scikit-learn (sklearn) は、SciPy の上に構築された機械学習用の Python モジュールです。幅広いアルゴリズム、使いやすさ、他の Python ライブラリとの統合が特徴です。

「Sklearn データセット」とは何ですか?

Sklearn データセットは、scikit-learn ( sklearn ) ライブラリなので、ライブラリにプリインストールされています。このため、これらのデータセットを個別にダウンロードしなくても、簡単にアクセスして読み込むことができます。


某のデータセットを操作するには、sklearn.datasets モジュールからインポートし、適切な関数を呼び出してデータをプログラムにロードするだけです。


これらのデータセットは一般说来、前処理されてすぐに选择できるため、さまざまな機械学習モデルやアルゴリズムを試す必不可少があるデータ承担者の時間と労力を節約できます。

Sklearn ライブラリのデータセットの完全なリスト

  1. 虹彩
  2. 糖尿病
  3. 数字
  4. リネルド
  5. ワイン
  6. 乳癌ウィスコンシン
  7. ボストン ハウジング
  8. オリベッティの顔
  9. カリフォルニア州の住宅
  10. MNIST
  11. ファッション-MNIST
  12. make_classification
  13. make_regression
  14. make_blobs
  15. make_moons と make_circles
  16. Make_sparse_coded_signal

プリインストールされた(おもちゃの)Sklearnデータセット

1.

このデータセットには、setosa、versicolor、virginica の 3 つの異なる種に属する 150 個のアヤメの花のがく片の長さ、がく片の幅、花弁の長さ、および花弁の幅の測定値が含まれています。アイリス データセットには 150 行と 5 列があり、各花の種の列を含むデータ フレームとして格納されます。


変数には次のものがあります。


  • Sepal.Length - sepal.length はがく片の長さをセンチメートル単位で表します。
  • Sepal.Width - sepal.width は、がく片の幅をセンチメートル単位で表します。
  • Petal.Length - petal.length は、花びらの長さをセンチメートル単位で表します。
  • Species - 種変数は、アヤメの花の種を表し、可能な値は setosa、versicolor、virginica の 3 つです。


sklearn.datasets モジュールのload_iris関数を使用して、sklearn から直接アイリス データセットを読み込むことができます。


 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())


sklearn を使用して Iris データセットをロードするためのコード。から取得 2023 年 3 月 27 日。

2.

この sklearn データセットには、糖尿病患者 442 人に関する情報が含まれており、人口統計学的および臨床的測定値が含まれています。

  • セックス
  • 体格指数 (BMI)
  • 平均血圧
  • 6回の血清測定(総コレステロール、低密度リポタンパク質(LDL)コレステロール、高密度リポタンパク質(HDL)コレステロールなど)。
  • 糖尿病疾患の進行 (HbA1c) の定量的尺度。


Diabetes データセットは、sklearn.datasets モジュールのload_diabetes()関数を使用してロードできます。


 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())


sklearn を使用して糖尿病データセットをロードするためのコード。から取得 2023 年 3 月 28 日。

3.

この sklearn データセットは、0 から 9 までの手書きの金额のコレクションであり、グレースケール イメージとして包存されます。合計 1797 個のサンプルが含まれており、各サンプルは形状图片大全 (8,8) の 2D 配列です。金额 sklearn データセットには、各金额肖像の 64 ピクセルに対応する 64 個の変数 (または特徴) があります。


Digits データセットは、sklearn.datasets モジュールのload_digits()関数を使用してロードできます。


 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)


sklearn を使用して Digits データセットをロードするためのコード。から取得 2023 年 3 月 29 日。


4.

Linnerud データセットには、20 人のプロのアスリートの身上的および身体学的測定値が含まれています。


データセットには次の変数が含まれます。


  • 3 つの身体運動変数 - チンアップ、シットアップ、ジャンピング ジャック。
  • 3 つの生理学的測定変数 - 脈拍、収縮期血圧、および拡張期血圧。


sklearn を使用して Python で Linnerud データセットを読み込むには:


 from sklearn.datasets import load_linnerud linnerud = load_linnerud()


sklearn を使用して linnerud データセットをロードするためのコード。から取得 2023 年 3 月 27 日。

5.

この sklearn データセットには、ワインを正しい品種に分類するために、イタリアの特定的の城市で栽种されたワインの化学式了解の結果が含まれています。


データセット内の変数の一部:


  • アルコール
  • リンゴ酸
  • 灰のアルカリ度
  • マグネシウム
  • 総フェノール
  • フラボノイド


Wine データセットは、sklearn.datasets モジュールのload_wine()関数を使用してロードできます。


 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names


sklearn を使用して Wine Quality データセットをロードするためのコード。から取得 2023 年 3 月 28 日。

6.

この sklearn データセットは、乳がんの腫瘍に関する情報で構成されており、首先は William H. Wolberg 博后によって作为されました。このデータセットは、分析者や機械学習の専門家が腫瘍を悪性 (癌性) または自然 (非癌性) に分類するのを支持するために作为されました。


このデータセットに含まれる変数の一部:


  • ID番号
  • 診断 (M = 悪性、B = 良性)。
  • 半径 (中心から周囲の点までの距離の平均)。
  • テクスチャ (グレースケール値の標準偏差)。
  • 周長
  • エリア
  • 滑らかさ (半径の長さの局所的な変化)。
  • コンパクトさ (周囲^2 / 面積 - 1.0)。
  • 凹み (輪郭の凹み部分の程度)。
  • 凹点(輪郭の凹みの数)。
  • 対称
  • フラクタル次元 (「海岸線近似」 - 1)。


sklearn.datasets モジュールのload_breast_cancer関数を使用して、sklearn から乳がんウィスコンシン データセットを直接読み込むことができます。


 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())


sklearn を使用して乳がんウィスコンシン データセットを読み込むためのコード。から取得 2023 年 3 月 28 日。


ウィスコンシン州乳がんデータセット

実世界の Sklearn データセット

実市场の sklearn データセットは、実市场の問題に基づいており、Python の sklearn ライブラリを适用して機械学習アルゴリズムと艺术手法を実践および実験するために常见的に适用されます。

7。

ボストン居住房データセットは、マサチューセッツ州ボストン地方の居住房に関する情報で構成されています。約 506 行と 14 列のデータがあります。


データセット内の変数には次のものがあります。


  • CRIM - 町ごとの一人当たりの犯罪率。
  • ZN - 25,000 平方フィートを超える区画に区画された住宅地の割合。
  • INDUS - 町ごとの非小売業エーカーの割合。
  • CHAS - チャールズ リバーのダミー変数 (トラクトが川に接している場合は = 1、それ以外の場合は 0)。
  • NOX - 一酸化窒素濃度 (1000 万分の 1)。
  • RM - 住居あたりの平均部屋数。
  • AGE - 1940 年以前に建てられた個人所有のユニットの割合。
  • DIS - ボストンの 5 つの雇用センターまでの加重距離。
  • RAD - 放射状高速道路へのアクセシビリティのインデックス。
  • TAX - $10,000 あたりの固定資産税の全額。
  • PTRATIO - 町ごとの生徒と教師の比率。
  • B - 1000(Bk - 0.63)^2 ここで、-Bk は町ごとの黒人の割合です。
  • LSTAT - 母集団の低いステータスのパーセンテージ。
  • MEDV - 1,000 ドル単位の持ち家住宅の中央値。


sklearn.datasets モジュールのload_boston関数を使用して、scikit-learn からボストン ハウジング データセットを直接読み込むことができます。


 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())


sklearn を使用してボストン住宅データセットを読み込むためのコード。から取得 2023 年 3 月 29 日。

8.

Olivetti Faces データセットは、AT&T Laboratories で 1992 年 4 月から 1994 年 4 月の間に撮影された人間の顔のグレースケール半身像のコレクションです。 10 人の個人の 400 枚の半身像が含まれており、各個人は異なる立场と異なる灯饰状况で撮影された 40 枚の半身像を持っています。


データセット モジュールのfetch_olivetti_faces関数を使用して、sklearn に Olivetti Faces データセットを読み込むことができます。


 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target


sklearn を使用して Olivetti Faces データセットをロードするためのコード。から取得 2023 年 3 月 29 日。

9.

この sklearn データセットには、房子の中共中央値に関する情報と、カリフォルニア州の国勢調査区の攻击速度が含まれています。また、20,640 のインスタンスと 8 つの機能も含まれています。


データセット内の変数の一部:


  • MedInc - ブロック内の収入の中央値。
  • HouseAge - ブロック内の住宅の築年数の中央値。
  • AveRooms - 1 世帯あたりの部屋の平均数。
  • AveBedrms - 世帯あたりの寝室の平均数。
  • 人口 - ブロックの人口。
  • AveOccup - 世帯の平均占有率。
  • 緯度 - ブロックの緯度 (10 進度)。
  • 経度 - ブロックの経度 (10 進度)。


sklearn のfetch_california_housing関数を使用して、カリフォルニア州住宅データセットを読み込むことができます。


 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target


sklearn を使用して California Housing データセットをロードするためのコード。から取得 2023 年 3 月 29 日。

10.

MNIST データセットは人気があり、機械学習とコンピューター ビジョンの分野で広く实用されています。これは、手書きの数字56 0 ~ 9 の 70,000 枚のグレースケール人物用户肖像图片で構成され、トレーニング用に 60,000 枚の人物用户肖像图片、テスト用に 10,000 枚の人物用户肖像图片が含まれます。各人物用户肖像图片のサイズは 28x28 ピクセルで、対応するラベルで、それが表す数字56を示します。


次のコードを使用して、sklearn から MNIST データセットを読み込むことができます。


 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')


注: MNIST データセットは Digits データセットのサブセットです。


sklearn を使用して MNIST データセットを読み込むためのコード。から取得 2023 年 3 月 30 日。


11.

Fashion MNIST データセットは、元の MNIST データセットの代わりとして Zalando Research によって做成されました。 Fashion MNIST データセットは、衣料品の 70,000 のグレースケール图像 (60,000 のトレーニング セットと 10,000 のテスト セット) で構成されています。


半身像のサイズは 28x28 ピクセルで、T シャツ/トップス、ズボン、プルオーバー、ドレス、コート、サンダル、シャツ、スニーカー、バッグ、アンクル ブーツなど、10 種類の衣料品を表しています。これは元の MNIST データセットに似ていますが、衣類のアイテムがより複雑で多様であるため、分類タスクがより困難になっています。


fetch_openml 関数を使用して、この sklearn データセットをロードできます。


 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')


sklearn を使用して Fashion MNIST データセットをロードするためのコード。 2023 年 3 月 30 日に __ __ から取得。

生成された Sklearn データセット

生成二维码二维码された sklearn データセットは、Python の sklearn ライブラリを利用して生成二维码二维码された合并データセットです。それらは、機械学習アルゴリズム/モデルのテスト、ベンチマーク、および開発に利用されます。

12.

この関数は、所选された数のサンプル、特徴、および不利于な特徴を持つランダムな n クラス分類データセットを提取します。


100 個のサンプル、5 つの機能、および 3 つのクラスを含むこの sklearn データセットを生成するコード例を次に示します。


 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)


このコードは、100 個のサンプルと 5 つの特徴、3 つのクラスと 3 つの不利于な特徴を含むデータセットを生产します。残りの機能は冗長またはノイズになります。


sklearn を使用して make_classification データセットをロードするためのコード。から取得 2023 年 3 月 30 日。

13.

この関数は、所选された数のサンプル、特徴、およびノイズを利用して、ランダムな回帰データセットを合成します。


100 個のサンプル、5 つの特徴、および 0.1 のノイズ レベルでこの sklearn データセットを生成するコード例を次に示します。


 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)


このコードは、ノイズ レベル 0.1 で、100 個のサンプルと 5 個の特徴を含むデータセットを转为します。ターゲット変数 y は連続変数になります。


sklearn を使用して make_regression データセットをロードするためのコード。から取得 2023 年 3 月 30 日。

14.

この関数は、同一个された数のサンプルとクラスターを持つランダム データセットを出现します。


100 個のサンプルと 3 つのクラスターでこの sklearn データセットを生成するコード例を次に示します。


 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)


このコードは、100 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを生成二维码します。3 つのクラスターはランダムな职位に分散し、ノイズはありません。


sklearn を使用して make_blobs データセットをロードするためのコード。から取得 2023 年 3 月 30 日。

15.

これらの関数は、非線形分類アルゴリズムのテストに役立つ非線形境地を持つデータセットを绘制します。


make_moons データセットをロードするコードの例を次に示します。


sklearn.datasets import make_moons からX, y = make_moons(n_samples=1000, ノイズ=0.2, random_state=42)


このコードは、1000 個のサンプルと 2 つの特徴 (x 座標と y 座標) を持つデータセットを自动生成し、2 つのクラス間に非線形境界的意思があり、0.2 標準偏差值のガウス ノイズがデータに追加されます。


sklearn を使用して make_moons データセットをロードするためのコード。から取得 2023 年 3 月 30 日。


make_circles データセットを生成して読み込むコードの例を次に示します。


 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)


sklearn を使用して make_circles データセットをロードするためのコード。から取得 2023 年 3 月 30 日。

16.

この関数は、圧縮センシング アルゴリズムのテストに役立つスパース コード信号灯データセットを自动生成します。


この sklearn データセットをロードするためのコード例を次に示します。


 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)


このコードは、100 個のサンプル、50 個の特徴、および 10 個の原子を含むスパース コード信号データセットを生成します。


sklearn を使用して make_sparse_coded_signal データセットをロードするためのコード。から取得 2023 年 3 月 30 日。


Sklearn データセットの一般的な使用例

プリインストールされた(おもちゃの)Sklearnデータセット

- この sklearn データセットは、分類タスクに一般的に使用され、分類アルゴリズムをテストするためのベンチマーク データセットとして使用されます。


- このデータセットには、糖尿病患者に関する医療情報が含まれており、医療分析の分類および回帰タスクに使用されます。


- この sklearn データセットには、手書き数字の画像が含まれており、画像分類やパターン認識タスクに一般的に使用されます。


- このデータセットには、20 人のアスリートの体力と医療データが含まれており、多変量回帰分析によく使用されます。


- この sklearn データセットには、ワインの化学分析が含まれており、一般的に分類およびクラスタリング タスクに使用されます。


- このデータセットには、乳がん患者に関する医療情報が含まれており、医療分析の分類タスクに一般的に使用されます。

実世界の Sklearn データセット

- この sklearn データセットには、ボストンの住宅に関する情報が含まれており、一般的に回帰タスクに使用されます。


- このデータセットには顔のグレースケール画像が含まれており、画像分類や顔認識タスクによく使用されます。


- この sklearn データセットには、カリフォルニア州の住宅に関する情報が含まれており、一般的に回帰タスクに使用されます。


- このデータセットには、手書きの数字の画像が含まれており、画像分類やパターン認識タスクによく使用されます。


- この sklearn データセットには衣料品の画像が含まれており、一般的に画像分類やパターン認識タスクに使用されます。

生成された Sklearn データセット

- このデータセットは、バイナリおよびマルチクラス分類タスク用にランダムに生成されたデータセットです。


- このデータセットは、回帰タスク用にランダムに生成されたデータセットです。


- この sklearn データセットは、クラスタリング タスク用にランダムに生成されたデータセットです。


- これらのデータセットは、分類タスク用にランダムに生成されたデータセットであり、一般に非線形分類器のテストに使用されます。


- このデータセットは、信号処理におけるスパース コーディング タスク用にランダムに生成されたデータセットです。

最終的な考え

Sklearn データセットは、データを手動で収集して前処理することなく、開発者や理论生物学家が機械学習モデルをテストおよび評価するための方便快捷な形式を给予します。


また、どなたでも自由度にダウンロードしてご再生利用いただけます。

この記事のリード画像は、プロンプト「アイリス データセット」を使用して、 HackerNoon の AI Stable Diffusionモデルによって生成されました。


その他のデータセット リスト:

  1. Excel データセット
  2. Keras データセット
  3. R データセット


바카라사이트 바카라사이트 온라인바카라