컴퓨터 비전은 크게 성장하고 있는 분야이며 자율주행차부터 안면 인식 시스템에 이르기까지 수많은 실제 응용 분야를 보유하고 있습니다. 그러나 이 분야의 주요 과제 중 하나는 기계 학습 모델을 교육하기 위한 고품질 데이터 세트를 얻는 것입니다.
이러한 문제를 해결하기 위해 토치비전은 컴퓨터 비전 작업을 위해 특별히 설계된 사전 구축된 데이터 세트, 모델 및 변환에 대한 액세스를 제공합니다. Torchvision은 또한 CPU 및 GPU 가속을 모두 지원하므로 컴퓨터 비전 애플리케이션 개발을 위한 유연하고 강력한 도구입니다.
Torchvision 데이터 세트는 기계 학습 모델을 개발하고 테스트하기 위해 컴퓨터 비전에서 일반적으로 사용되는 인기 있는 데이터 세트 모음입니다. 개발자는 토치비전 데이터세트를 사용하여 이미지 분류, 객체 감지, 분할과 같은 다양한 작업에 대한 머신 러닝 모델을 훈련하고 테스트할 수 있습니다.
또한 데이터 세트는 쉽게 로드하고 사용할 수 있는 형식으로 전처리, 레이블 지정 및 구성됩니다.
이 torchvision 데이터세트는 머신러닝과 컴퓨터 비전 분야에서 널리 사용되고 널리 사용됩니다. 이는 손으로 쓴 숫자 0~9의 회색조 이미지 70,000개로 구성되며, 훈련용 이미지 60,000개, 테스트용 이미지 10,000개입니다. 각 이미지의 크기는 28x28픽셀이며 해당 이미지가 나타내는 숫자를 나타내는 해당 라벨이 있습니다.
이 데이터 세트에 액세스하려면 다음에서 직접 다운로드할 수 있습니다.
import torchvision.datasets as datasets # Load the training dataset train_dataset = datasets.MNIST(root='data/', train=True, transform=None, download=True) # Load the testing dataset test_dataset = datasets.MNIST(root='data/', train=False, transform=None, download=True)
PyTorch torchvision 패키지를 사용하여 MNIST 데이터세트를 로드하는 코드입니다. 2023년 3월 20일 에서 검색됨.
CIFAR-10 데이터 세트는 10개 클래스의 60,000개의 32x32 컬러 이미지로 구성되며 클래스당 이미지는 6,000개입니다. 여기에는 총 50,000개의 훈련 이미지와 10,000개의 테스트 이미지가 있으며, 각각 10,000개의 이미지가 포함된 5개의 훈련 배치와 1개의 테스트 배치로 다시 나뉩니다.
이 데이터세트는 다음에서 다운로드할 수 있습니다.
import torch import torchvision import torchvision.transforms as transforms transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
필요에 따라 데이터 로더에 대한 작업자 프로세스의 배치 크기와 수를 조정할 수 있습니다.
PyTorch torchvision 패키지를 사용하여 CIFAR-10 데이터세트를 로드하는 코드입니다. 2023년 3월 20일 에서 검색함.
CIFAR-100 데이터세트에는 100개의 클래스에 60,000개(50,000개의 훈련 이미지와 10,000개의 테스트 이미지)의 32x32 컬러 이미지가 있으며, 클래스당 600개의 이미지가 있습니다. 100개의 클래스는 20개의 슈퍼클래스로 그룹화되며, 해당 클래스를 나타내는 미세한 레이블과 해당 클래스가 속한 슈퍼클래스를 나타내는 대략적인 레이블이 있습니다.
Kaggle에서 torchvision 데이터세트를 다운로드하려면 Kaggle을 방문하세요.
import torchvision.datasets as datasets import torchvision.transforms as transforms # Define transform to normalize data transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) ]) # Load CIFAR-100 train and test datasets trainset = datasets.CIFAR100(root='./data', train=True, download=True, transform=transform) testset = datasets.CIFAR100(root='./data', train=False, download=True, transform=transform) # Create data loaders for train and test datasets trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)
PyTorch torchvision 패키지를 사용하여 CIFAR-100 데이터세트를 로드하는 코드입니다. 2023년 3월 20일 에서 검색함.
토치비전의 ImageNet 데이터세트에는 약 120만 개의 훈련 이미지, 50,000개의 검증 이미지, 100,000개의 테스트 이미지가 포함되어 있습니다. 데이터 세트의 각 이미지에는 "고양이", "개", "자동차", "비행기" 등과 같은 1,000개 카테고리 중 하나로 라벨이 지정되어 있습니다.
이 토치비전 데이터세트를 다운로드하려면 다음 사이트를 방문해야 합니다.
import torchvision.datasets as datasets import torchvision.transforms as transforms # Set the path to the ImageNet dataset on your machine data_path = "/path/to/imagenet" # Create the ImageNet dataset object with custom options imagenet_train = datasets.ImageNet( root=data_path, split='train', transform=transforms.Compose([ transforms.Resize(256), transforms.RandomCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) imagenet_val = datasets.ImageNet( root=data_path, split='val', transform=transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) # Print the number of images in the training and validation sets print("Number of images in the training set:", len(imagenet_train)) print("Number of images in the validation set:", len(imagenet_val))
PyTorch torchvision 패키지를 사용하여 ImageNet 데이터세트를 로드하는 코드입니다. 2023년 3월 21일 에서 검색함.
Microsoft Common Objects in Context(MS Coco) 데이터 세트에는 일상적인 물체와 인간에 대한 328,000개의 고품질 시각적 이미지가 포함되어 있으며 실시간 개체 감지에서 알고리즘 성능을 비교하기 위한 표준으로 자주 사용됩니다.
이 토치비전 데이터세트를 다운로드하려면 다음을 방문하세요.
import torch from torchvision import datasets, transforms # Define transformation transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load training dataset train_dataset = datasets.CocoDetection(root='/path/to/dataset/train2017', annFile='/path/to/dataset/annotations/instances_train2017.json', transform=transform) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) # Load validation dataset val_dataset = datasets.CocoDetection(root='/path/to/dataset/val2017', annFile='/path/to/dataset/annotations/instances_val2017.json', transform=transform) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)
/path/to/dataset 자리 표시자를 데이터세트 디렉터리의 실제 경로로 바꾸세요. 또한 필요에 맞게 배치_크기 매개변수를 조정하십시오.
PyTorch torchvision 패키지를 사용하여 MS Coco 데이터세트를 로드하는 코드입니다. 2023년 3월 21일 에서 검색함.
Fashion MNIST 데이터세트는 원래 MNIST 데이터세트를 대체하기 위해 Zalando Research에서 생성되었습니다. Fashion MNIST 데이터세트는 의류 품목에 대한 70,000개의 회색조 이미지(60,000개의 훈련 세트와 10,000개의 테스트 세트)로 구성됩니다.
이미지 크기는 28x28픽셀이며 티셔츠/상의, 바지, 풀오버, 드레스, 코트, 샌들, 셔츠, 운동화, 가방, 발목 부츠 등 10가지 종류의 의류 품목을 나타냅니다. 이는 원래 MNIST 데이터세트와 유사하지만 의류 항목의 복잡성과 다양성으로 인해 분류 작업이 더 까다로워졌습니다.
이 토치비전 데이터세트는 다음에서 다운로드할 수 있습니다.
import torch import torchvision import torchvision.transforms as transforms # Define transformations transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) # Load the dataset trainset = torchvision.datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform) # Create data loaders trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
PyTorch torchvision 패키지를 사용하여 Fashion-MNIST 데이터 세트를 로드하는 코드입니다. 2023년 3월 21일 에서 검색함.
SVHN(스트리트 뷰 집 번호) 데이터 세트는 Google의 스트리트 뷰 이미지에서 파생된 이미지 데이터 세트로, 거리 수준 이미지에서 가져온 집 번호의 잘린 이미지로 구성됩니다. 모든 집 번호와 경계 상자가 포함된 전체 형식과 집 번호만 포함된 잘린 형식으로 제공됩니다. 전체 형식은 객체 감지 작업에 자주 사용되는 반면, 잘린 형식은 분류 작업에 일반적으로 사용됩니다.
SVHN 데이터 세트는 torchvision 패키지에도 포함되어 있으며 훈련용 이미지 73,257개, 테스트용 이미지 26,032개, 추가 훈련 데이터용 추가 이미지 531,131개가 포함되어 있습니다.
이 torchvision 데이터 세트를 다운로드하려면 다음으로 이동하세요.
import torchvision import torch # Load the train and test sets train_set = torchvision.datasets.SVHN(root='./data', split='train', download=True, transform=torchvision.transforms.ToTensor()) test_set = torchvision.datasets.SVHN(root='./data', split='test', download=True, transform=torchvision.transforms.ToTensor()) # Create data loaders train_loader = torch.utils.data.DataLoader(train_set, batch_size=64, shuffle=True) test_loader = torch.utils.data.DataLoader(test_set, batch_size=64, shuffle=False)
PyTorch torchvision 패키지를 사용하여 SVHN 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 에서 검색됨.
STL-10 데이터세트는 10개 클래스로 구성된 이미지 인식 데이터세트로, 총 약 6,000개 이상의 이미지가 포함되어 있습니다. STL-10은 "Standard Training and Test Set for Image Recognition-10 클래스"를 나타내며 데이터 세트의 10개 클래스는 다음과 같습니다.
이 데이터 세트에 액세스하려면 다음에서 직접 다운로드할 수 있습니다.
import torchvision.datasets as datasets import torchvision.transforms as transforms # Define the transformation to apply to the data transform = transforms.Compose([ transforms.ToTensor(), # Convert PIL image to PyTorch tensor transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # Normalize the data ]) # Load the STL-10 dataset train_dataset = datasets.STL10(root='./data', split='train', download=True, transform=transform) test_dataset = datasets.STL10(root='./data', split='test', download=True, transform=transform)
PyTorch torchvision 패키지를 사용하여 STL-10 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 에서 검색함.
이 토치비전 데이터세트는 200,000개 이상의 유명인 이미지로 구성된 인기 있는 대규모 얼굴 속성 데이터세트입니다. 2015년 홍콩 중문대학교 연구진이 처음 발표했습니다. CelebA의 이미지는 나이, 머리 색깔, 얼굴 표정, 성별 등 40가지 얼굴 속성으로 구성됩니다. 또한 이러한 이미지는 인터넷에서 검색한 것이며 다양한 인종, 연령, 성별을 포함하여 다양한 얼굴 모습을 담고 있습니다. 각 이미지의 얼굴 위치에 대한 경계 상자 주석과 눈, 코, 입에 대한 5개의 랜드마크 포인트.
이 데이터세트는 다음에서 다운로드할 수 있습니다.
import torchvision.datasets as datasets import torchvision.transforms as transforms transform = transforms.Compose([ transforms.CenterCrop(178), transforms.Resize(128), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) celeba_dataset = datasets.CelebA(root='./data', split='train', transform=transform, download=True)
PyTorch torchvision 패키지를 사용하여 CelebA 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 에서 검색됨.
VOC 데이터 세트(Visual Object Classes)는 시각적 인식 분야의 최첨단 기술 발전을 목표로 하는 PASCAL VOC Challenge의 일부로 2005년에 처음 소개되었습니다. 동물, 차량, 일반 가정용품 등 20가지 다양한 개체 카테고리의 이미지로 구성되어 있습니다. 이러한 각 이미지에는 이미지 내 개체의 위치와 분류에 대한 주석이 추가됩니다. 주석에는 경계 상자와 픽셀 수준 분할 마스크가 모두 포함됩니다.
데이터 세트는 훈련 세트와 검증 세트라는 두 가지 주요 세트로 나뉩니다. 훈련 세트에는 주석이 있는 약 5,000개의 이미지가 포함되어 있고, 검증 세트에는 주석이 없는 약 5,000개의 이미지가 포함되어 있습니다. 또한 데이터 세트에는 약 10,000개의 이미지가 포함된 테스트 세트도 포함되어 있지만 이 세트의 주석은 공개적으로 사용할 수 없습니다.
최근 데이터 세트에 액세스하려면 다음에서 다운로드할 수 있습니다.
import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='train', transform=transform) val_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)
PyTorch torchvision 패키지를 사용하여 PASCAL VOC 데이터 세트를 로드하는 코드입니다. 2023년 3월 22일 에서 검색됨.
Places365 데이터세트는 365개 장면 카테고리를 포괄하는 180만개 이상의 이미지를 포함하는 대규모 장면 인식 데이터세트입니다. Places365 Standard 데이터세트는 약 180만 개의 이미지로 구성되어 있는 반면, Places365-Challenge 데이터세트에는 인식 모델에 더 까다로운 50,000개의 추가 검증 이미지가 포함되어 있습니다.
이 데이터 세트에 액세스하려면 다음을 사용할 수 있습니다.
import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.Places365(root='./data', split='train-standard', transform=transform) val_dataset = torchvision.datasets.Places365(root='./data', split='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)
PyTorch torchvision 패키지를 사용하여 Places365 데이터세트를 로드하는 코드입니다. 2023년 3월 22일 에서 검색함.
Torchvision 데이터 세트는 컴퓨터 비전 애플리케이션에 일반적으로 사용되는 CNN(컨볼루션 신경망)과 같은 기계 학습 모델을 훈련하고 평가하는 데 자주 사용됩니다.
또한 누구나 자유롭게 다운로드하여 사용할 수 있습니다.
이 기사의 리드 이미지는 '작은 프레임으로 구성된 수천 개의 이미지'라는 프롬프트를 사용하여 HackerNoon의 AI Stable Diffusion 모델을 통해 생성되었습니다.
더 많은 데이터 세트 목록: