28,945 판독값

기계 학습 모델 구축을 위한 16가지 최고의 Sklearn 데이터 세트

~에 의해 Open Datasets Compiled by HackerNoon12m2023/04/15

너무 오래; 읽다

Sklearn은 SciPy를 기반으로 구축된 기계 학습용 Python 모듈입니다. 광범위한 알고리즘과 사용 용이성으로 인해 독특합니다. 데이터는 기계 학습 알고리즘과 scikit-learn을 지원합니다. Sklearn은 연구원, 실무자 및 애호가가 널리 사용하는 고품질 데이터 세트를 제공합니다.

featured image - 기계 학습 모델 구축을 위한 16가지 최고의 Sklearn 데이터 세트

‘Iris dataset’ Image created by HackerNoon AI Image Generator

데이터는 기계 학습 알고리즘과 scikit-learn을 지원합니다. 스켈런 연구원, 실무자 및 애호가가 널리 사용하는 고품질 데이터 세트를 제공합니다. Scikit-learn(sklearn)은 SciPy를 기반으로 구축된 기계 학습용 Python 모듈입니다. 광범위한 알고리즘, 사용 용이성 및 다른 Python 라이브러리와의 통합으로 인해 독특합니다.

"Sklearn 데이터 세트"란 무엇입니까?

Sklearn 데이터세트는 scikit-learn( 스켈런 ) 라이브러리이므로 라이브러리와 함께 사전 설치되어 제공됩니다. 이로 인해 별도로 다운로드할 필요 없이 이러한 데이터 세트에 쉽게 액세스하고 로드할 수 있습니다.

특정 데이터세트를 사용하려면 sklearn.datasets 모듈에서 해당 데이터세트를 가져오고 적절한 함수를 호출하여 데이터를 프로그램에 로드하면 됩니다.

이러한 데이터 세트는 일반적으로 사전 처리되어 즉시 사용할 수 있으므로 다양한 기계 학습 모델 및 알고리즘을 실험해야 하는 데이터 실무자의 시간과 노력을 절약할 수 있습니다.

Sklearn 라이브러리의 전체 데이터 세트 목록

아이리스
당뇨병
숫자
린네루드
와인
유방암 위스콘신
보스턴 하우징
올리베티 얼굴들
캘리포니아 주택
MNIST
패션-MNIST
make_classification
make_regression
make_blobs
make_moons 및 make_circles
Make_sparse_coded_signal

사전 설치된(장난감) Sklearn 데이터 세트

1.

이 데이터세트에는 세토사(setosa), 베르시컬러(versicolor), 버지니아(Virginica) 등 3가지 종에 속하는 붓꽃 150개의 꽃받침 길이, 꽃받침 너비, 꽃잎 길이 및 꽃잎 너비에 대한 측정값이 포함되어 있습니다. 붓꽃 데이터세트에는 150개의 행과 5개의 열이 있으며, 각 꽃의 종에 대한 열을 포함하여 데이터프레임으로 저장됩니다.

변수는 다음과 같습니다.

Sepal.Length - sepal.length는 꽃받침의 길이를 센티미터 단위로 나타냅니다.
Sepal.Width - sepal.width는 꽃받침의 너비를 센티미터 단위로 나타냅니다.
Petal.Length - 꽃잎.길이는 꽃잎의 길이를 센티미터 단위로 나타냅니다.
종(Species) - 종 변수는 붓꽃의 종을 나타내며, setosa, versicolor 및 virginica의 세 가지 가능한 값을 갖습니다.

sklearn.datasets 모듈의 load_iris 함수를 사용하여 sklearn에서 직접 붓꽃 데이터세트를 로드할 수 있습니다.

 # To install sklearn pip install scikit-learn # To import sklearn from sklearn.datasets import load_iris # Load the iris dataset iris = load_iris() # Print the dataset description print(iris.describe())

sklearn을 사용하여 Iris 데이터 세트를 로드하는 코드입니다. 검색 위치 2023년 3월 27일.

2.

이 sklearn 데이터 세트에는 인구 통계 및 임상 측정을 포함하여 당뇨병 환자 442명에 대한 정보가 포함되어 있습니다.

나이
섹스
체질량지수(BMI)
평균 혈압
6가지 혈청 측정(예: 총 콜레스테롤, 저밀도 지질단백질(LDL) 콜레스테롤, 고밀도 지질단백질(HDL) 콜레스테롤).
당뇨병 질환 진행(HbA1c)의 정량적 측정입니다.

당뇨병 데이터세트는 sklearn.datasets 모듈의 load_diabetes() 함수를 사용하여 로드할 수 있습니다.

 from sklearn.datasets import load_diabetes # Load the diabetes dataset diabetes = load_diabetes() # Print some information about the dataset print(diabetes.describe())

sklearn을 사용하여 당뇨병 데이터 세트를 로드하기 위한 코드입니다. 검색 위치 2023년 3월 28일.

삼.

이 sklearn 데이터 세트는 0부터 9까지 손으로 쓴 숫자 모음으로 회색조 이미지로 저장됩니다. 여기에는 총 1797개의 샘플이 포함되어 있으며 각 샘플은 모양 (8,8)의 2D 배열입니다. 숫자 sklearn 데이터 세트에는 각 숫자 이미지의 64픽셀에 해당하는 64개의 변수(또는 기능)가 있습니다.

Digits 데이터세트는 sklearn.datasets 모듈의 load_digits() 함수를 사용하여 로드할 수 있습니다.

 from sklearn.datasets import load_digits # Load the digits dataset digits = load_digits() # Print the features and target data print(digits.data) print(digits.target)

sklearn을 사용하여 Digits 데이터 세트를 로드하는 코드입니다. 검색 위치 2023년 3월 29일.

4.

Linnerud 데이터세트에는 20명의 프로 운동선수에 대한 신체적, 생리적 측정값이 포함되어 있습니다.

데이터 세트에는 다음 변수가 포함됩니다.

세 가지 신체 운동 변수 - 턱걸이, 윗몸 일으키기, 점핑 잭.
세 가지 생리학적 측정 변수 - 맥박, 수축기 혈압, 확장기 혈압.

sklearn을 사용하여 Python에서 Linnerud 데이터세트를 로드하려면 다음 안내를 따르세요.

 from sklearn.datasets import load_linnerud linnerud = load_linnerud()

sklearn을 사용하여 linnerud 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 27일.

5.

이 sklearn 데이터 세트에는 와인을 올바른 품종으로 분류하기 위해 이탈리아의 특정 지역에서 재배된 와인의 화학적 분석 결과가 포함되어 있습니다.

데이터세트의 일부 변수는 다음과 같습니다.

술
능금산
금연 건강 증진 협회
재의 알칼리도
마그네슘
총 페놀
플라바노이드

Wine 데이터 세트는 sklearn.datasets 모듈의 load_wine() 함수를 사용하여 로드할 수 있습니다.

 from sklearn.datasets import load_wine # Load the Wine dataset wine_data = load_wine() # Access the features and targets of the dataset X = wine_data.data # Features y = wine_data.target # Targets # Access the feature names and target names of the dataset feature_names = wine_data.feature_names target_names = wine_data.target_names

sklearn을 사용하여 와인 품질 데이터 세트를 로드하는 코드입니다. 검색 위치 2023년 3월 28일.

6.

이 sklearn 데이터세트는 유방암 종양에 대한 정보로 구성되어 있으며 처음에는 William H. Wolberg 박사가 만들었습니다. 이 데이터 세트는 연구원과 기계 학습 실무자가 종양을 악성(암성) 또는 양성(비암성)으로 분류하는 데 도움을 주기 위해 만들어졌습니다.

이 데이터 세트에 포함된 일부 변수는 다음과 같습니다.

ID 번호
진단(M = 악성, B = 양성).
반경(중심에서 둘레의 점까지 거리의 평균).
질감(회색조 값의 표준 편차)입니다.
둘레
영역
매끄러움(반지름 길이의 지역적 변화)
컴팩트함(둘레^2/면적 - 1.0).
오목함(윤곽의 오목한 부분의 심각도).
오목점(윤곽선의 오목한 부분 수).
대칭
프랙탈 차원("해안선 근사" - 1).

sklearn.datasets 모듈의 load_breast_cancer 함수를 사용하여 sklearn에서 직접 Breast Cancer Wisconsin 데이터세트를 로드할 수 있습니다.

 from sklearn.datasets import load_breast_cancer # Load the Breast Cancer Wisconsin dataset cancer = load_breast_cancer() # Print the dataset description print(cancer.describe())

sklearn을 사용하여 Breast Cancer Wisconsin 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 28일.

실제 Sklearn 데이터 세트

실제 sklearn 데이터 세트는 Python의 sklearn 라이브러리를 사용하여 기계 학습 알고리즘 및 기술을 연습하고 실험하는 데 일반적으로 사용되는 실제 문제를 기반으로 합니다.

7.

Boston Housing 데이터세트는 매사추세츠주 보스턴 지역의 주택에 대한 정보로 구성됩니다. 여기에는 약 506개의 행과 14개의 열이 있습니다.

데이터 세트의 일부 변수는 다음과 같습니다.

CRIM - 도시별 1인당 범죄율입니다.
ZN - 25,000평방피트가 넘는 부지에 대해 구역화된 주거용 토지의 비율입니다.
INDUS - 도시당 비소매 사업 면적의 비율입니다.
CHAS - Charles River 더미 변수(= 지역 경계가 강인 경우 1, 그렇지 않은 경우 0).
NOX - 산화질소 농도(1,000만분의 1)입니다.
RM - 주거지당 평균 방 수입니다.
AGE - 1940년 이전에 건축된 자가 거주 주택의 비율입니다.
DIS - 보스턴 고용 센터 5곳까지의 가중치 거리.
RAD - 방사형 고속도로에 대한 접근성 지수입니다.
세금 - $10,000당 전체 재산세율입니다.
PTRATIO - 도시별 학생-교사 비율입니다.
B - 1000(Bk - 0.63)^2 여기서 -Bk는 마을별 흑인 비율입니다.
LSTAT - 모집단의 낮은 상태 비율입니다.
MEDV - 소유자가 거주하는 주택의 평균 가치($1000).

sklearn.datasets 모듈의 load_boston 함수를 사용하여 scikit-learn에서 직접 Boston Housing 데이터세트를 로드할 수 있습니다.

 from sklearn.datasets import load_boston # Load the Boston Housing dataset boston = load_boston() # Print the dataset description print(boston.describe())

sklearn을 사용하여 Boston Housing 데이터 세트를 로드하는 코드입니다. 검색 위치 2023년 3월 29일.

8.

Olivetti Faces 데이터 세트는 1992년 4월부터 1994년 4월까지 AT&T 연구소에서 촬영한 인간 얼굴의 회색조 이미지 모음입니다. 여기에는 10명의 개인에 대한 400개의 이미지가 포함되어 있으며 각 개인은 서로 다른 각도와 조명 조건에서 촬영된 40개의 이미지를 가지고 있습니다.

데이터 세트 모듈의 fetch_olivetti_faces 함수를 사용하여 sklearn에서 Olivetti Faces 데이터 세트를 로드할 수 있습니다.

 from sklearn.datasets import fetch_olivetti_faces # Load the dataset faces = fetch_olivetti_faces() # Get the data and target labels X = faces.data y = faces.target

sklearn을 사용하여 Olivetti Faces 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 29일.

9.

이 sklearn 데이터 세트에는 캘리포니아의 인구 조사 지역에 대한 속성뿐만 아니라 중간 주택 가격에 대한 정보가 포함되어 있습니다. 또한 20,640개의 인스턴스와 8개의 기능이 포함되어 있습니다.

데이터세트의 일부 변수는 다음과 같습니다.

MedInc - 블록의 중간 소득입니다.
HouseAge - 블록에 있는 주택의 평균 연령입니다.
AveRooms - 가구당 평균 객실 수입니다.
AveBedrms - 가구당 평균 침실 수입니다.
인구 - 블록 인구입니다.
AveOccup - 평균 가구 점유입니다.
위도 - 블록의 위도(십진수 각도)입니다.
경도 - 블록의 경도(십진수 도)입니다.

sklearn의 fetch_california_housing 함수를 사용하여 캘리포니아 주택 데이터세트를 로드할 수 있습니다.

 from sklearn.datasets import fetch_california_housing # Load the dataset california_housing = fetch_california_housing() # Get the features and target variable X = california_housing.data y = california_housing.target

sklearn을 사용하여 캘리포니아 주택 데이터 세트를 로드하는 코드입니다. 검색 위치 2023년 3월 29일.

10.

MNIST 데이터 세트는 기계 학습 및 컴퓨터 비전 분야에서 널리 사용되고 널리 사용됩니다. 이는 손으로 쓴 숫자 0~9의 회색조 이미지 70,000개로 구성되며, 훈련용 이미지 60,000개, 테스트용 이미지 10,000개입니다. 각 이미지의 크기는 28x28픽셀이며 해당 이미지가 나타내는 숫자를 나타내는 해당 라벨이 있습니다.

다음 코드를 사용하여 sklearn에서 MNIST 데이터세트를 로드할 수 있습니다.

 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784')

참고: MNIST 데이터세트는 Digits 데이터세트의 하위 집합입니다.

sklearn을 사용하여 MNIST 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 30일.

11.

Fashion MNIST 데이터세트는 원래 MNIST 데이터세트를 대체하기 위해 Zalando Research에서 생성되었습니다. Fashion MNIST 데이터세트는 의류 품목에 대한 70,000개의 회색조 이미지(60,000개의 훈련 세트와 10,000개의 테스트 세트)로 구성됩니다.

이미지 크기는 28x28픽셀이며 티셔츠/상의, 바지, 풀오버, 드레스, 코트, 샌들, 셔츠, 운동화, 가방, 발목 부츠 등 10가지 종류의 의류 품목을 나타냅니다. 이는 원래 MNIST 데이터세트와 유사하지만 의류 항목의 복잡성과 다양성으로 인해 분류 작업이 더 까다로워졌습니다.

fetch_openml 함수를 사용하여 이 sklearn 데이터세트를 로드할 수 있습니다.

 from sklearn.datasets import fetch_openml fmnist = fetch_openml(name='Fashion-MNIST')

sklearn을 사용하여 Fashion MNIST 데이터세트를 로드하는 코드입니다. 2023년 3월 30일에__ __에서 검색됨.

생성된 Sklearn 데이터 세트

생성된 sklearn 데이터세트는 Python의 sklearn 라이브러리를 사용하여 생성된 합성 데이터세트입니다. 이는 기계 학습 알고리즘/모델을 테스트, 벤치마킹 및 개발하는 데 사용됩니다.

12.

이 함수는 지정된 수의 샘플, 기능 및 정보 기능을 사용하여 무작위 n 클래스 분류 데이터 세트를 생성합니다.

다음은 100개의 샘플, 5개의 기능 및 3개의 클래스가 포함된 이 sklearn 데이터 세트를 생성하는 예제 코드입니다.

 from sklearn.datasets import make_classification X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

이 코드는 100개의 샘플과 5개의 기능, 3개의 클래스와 3개의 정보 기능이 포함된 데이터 세트를 생성합니다. 나머지 기능은 중복되거나 노이즈가 됩니다.

sklearn을 사용하여 make_classification 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 30일.

13.

이 함수는 지정된 수의 샘플, 기능 및 노이즈를 사용하여 무작위 회귀 데이터 세트를 생성합니다.

다음은 100개의 샘플, 5개의 기능, 노이즈 수준 0.1로 이 sklearn 데이터 세트를 생성하는 예제 코드입니다.

 from sklearn.datasets import make_regression X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

이 코드는 노이즈 수준이 0.1인 100개의 샘플과 5개의 기능이 포함된 데이터 세트를 생성합니다. 목표 변수 y는 연속형 변수가 됩니다.

sklearn을 사용하여 make_regression 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 30일.

14.

이 함수는 지정된 수의 샘플과 클러스터를 사용하여 무작위 데이터세트를 생성합니다.

다음은 100개의 샘플과 3개의 클러스터로 이 sklearn 데이터 세트를 생성하는 예제 코드입니다.

 from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=100, centers=3, random_state=42)

이 코드는 100개의 샘플과 2개의 특징(x 및 y 좌표), 3개의 클러스터가 무작위 위치에 중심에 있고 노이즈가 없는 데이터세트를 생성합니다.

sklearn을 사용하여 make_blobs 데이터세트를 로드하기 위한 코드입니다. 검색 위치 2023년 3월 30일.

15. 그리고

이러한 함수는 비선형 분류 알고리즘을 테스트하는 데 유용한 비선형 경계가 있는 데이터세트를 생성합니다.

make_moons 데이터 세트를 로드하는 예제 코드는 다음과 같습니다.

sklearn.datasets에서 make_moons 가져오기 X, y = make_moons(n_samples=1000, 노이즈=0.2, random_state=42)

이 코드는 두 클래스 사이에 비선형 경계가 있고 데이터에 0.2 표준 편차의 가우스 노이즈가 추가된 1000개의 샘플과 2개의 특징(x 및 y 좌표)이 있는 데이터 세트를 생성합니다.

sklearn을 사용하여 make_moons 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 30일.

make_circles 데이터 세트를 생성하고 로드하는 예제 코드는 다음과 같습니다.

 from sklearn.datasets import make_circles X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

sklearn을 사용하여 make_circles 데이터세트를 로드하는 코드입니다. 검색 위치 2023년 3월 30일.

16.

이 기능은 압축 감지 알고리즘을 테스트하는 데 유용한 희소 코딩된 신호 데이터 세트를 생성합니다.

다음은 이 sklearn 데이터 세트를 로드하기 위한 예제 코드입니다.

 from sklearn.datasets import make_sparse_coded_signal X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

이 코드는 샘플 100개, 특징 50개, 원자 10개로 코딩된 희소 신호 데이터세트를 생성합니다.

sklearn을 사용하여 make_sparse_coded_signal 데이터 세트를 로드하기 위한 코드입니다. 검색 위치 2023년 3월 30일.

Sklearn 데이터 세트의 일반적인 사용 사례

사전 설치된(장난감) Sklearn 데이터 세트

- 이 sklearn 데이터 세트는 분류 작업에 일반적으로 사용되며 분류 알고리즘 테스트를 위한 벤치마크 데이터 세트로 사용됩니다.

- 이 데이터 세트에는 당뇨병 환자에 대한 의료 정보가 포함되어 있으며 의료 분석의 분류 및 회귀 작업에 사용됩니다.

- 이 sklearn 데이터 세트에는 손으로 쓴 숫자 이미지가 포함되어 있으며 일반적으로 이미지 분류 및 패턴 인식 작업에 사용됩니다.

- 이 데이터세트에는 운동선수 20명의 체력 및 의료 데이터가 포함되어 있으며 다변량 회귀분석에 주로 사용됩니다.

- 이 sklearn 데이터 세트에는 와인의 화학적 분석이 포함되어 있으며 일반적으로 분류 및 클러스터링 작업에 사용됩니다.

- 이 데이터세트에는 유방암 환자에 대한 의료 정보가 포함되어 있으며 의료 분석의 분류 작업에 일반적으로 사용됩니다.

실제 Sklearn 데이터 세트

- 이 sklearn 데이터세트에는 보스턴의 주택에 대한 정보가 포함되어 있으며 일반적으로 회귀 작업에 사용됩니다.

- 이 데이터 세트에는 얼굴의 회색조 이미지가 포함되어 있으며 일반적으로 이미지 분류 및 얼굴 인식 작업에 사용됩니다.

- 이 sklearn 데이터 세트에는 캘리포니아 주택에 대한 정보가 포함되어 있으며 일반적으로 회귀 작업에 사용됩니다.

- 이 데이터 세트에는 손으로 쓴 숫자 이미지가 포함되어 있으며 이미지 분류 및 패턴 인식 작업에 일반적으로 사용됩니다.

- 이 sklearn 데이터 세트에는 의류 품목의 이미지가 포함되어 있으며 일반적으로 이미지 분류 및 패턴 인식 작업에 사용됩니다.

생성된 Sklearn 데이터 세트

- 이 데이터세트는 이진 및 다중 클래스 분류 작업을 위해 무작위로 생성된 데이터세트입니다.

- 이 데이터세트는 회귀 작업을 위해 무작위로 생성된 데이터세트입니다.

- 이 sklearn 데이터세트는 클러스터링 작업을 위해 무작위로 생성된 데이터세트입니다.

그리고 - 이 데이터 세트는 분류 작업을 위해 무작위로 생성된 데이터 세트이며 일반적으로 비선형 분류기를 테스트하는 데 사용됩니다.

- 이 데이터셋은 신호처리의 희소 코딩 작업을 위해 무작위로 생성된 데이터셋입니다.

마지막 생각들

Sklearn 데이터 세트는 개발자와 연구원이 데이터를 수동으로 수집하고 전처리할 필요 없이 기계 학습 모델을 테스트하고 평가할 수 있는 편리한 방법을 제공합니다.

또한 누구나 자유롭게 다운로드하여 사용할 수 있습니다.

이 기사의 리드 이미지는 프롬프트 '홍채 데이터 세트'를 사용하여 HackerNoon의 AI Stable Diffusion 모델을 통해 생성되었습니다.

더 많은 데이터세트 목록:

L O A D I N G
. . . comments & more!

About Author

Open Datasets Compiled by HackerNoon@datasets

A library of open datasets for data analytics/machine learning compiled by HackerNoon.

Read my stories

태그 걸기

data-science #sklearn #datasets #datascience #sklearn-datasets #machine-learning #python-programming #dataset #hackernoon-top-story

이 기사는 다음에서 발표되었습니다....

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

기계 학습 모델 구축을 위한 16가지 최고의 Sklearn 데이터 세트

너무 오래; 읽다

"Sklearn 데이터 세트"란 무엇입니까?

Sklearn 라이브러리의 전체 데이터 세트 목록

사전 설치된(장난감) Sklearn 데이터 세트

1.

2.

삼.

4.

5.

6.

실제 Sklearn 데이터 세트

7.

8.

9.

10.

11.

생성된 Sklearn 데이터 세트

12.

13.

14.

15. 그리고

16.

Sklearn 데이터 세트의 일반적인 사용 사례

사전 설치된(장난감) Sklearn 데이터 세트

실제 Sklearn 데이터 세트

생성된 Sklearn 데이터 세트

마지막 생각들

About Author

태그 걸기

이 기사는 다음에서 발표되었습니다....

관련 기사