7,446 測定値

知っておくべきコンピュータービジョン用の 11 の Torchvision データセット

に Open Datasets Compiled by HackerNoon13m2023/03/26

長すぎる; 読むには

Torchvision は、コンピュータービジョンタスク用に特別に設計された事前構築済みのデータセット、モデル、および変換へのアクセスを提供します。データセットは前処理され、ラベル付けされ、簡単に読み込んで使用できる形式に編成されます。また、Torchvision は CPU と GPU アクセラレーションの両方をサポートしているため、コンピュータービジョンアプリケーションを開発するための柔軟で強力なツールとなっています。

featured image - 知っておくべきコンピュータービジョン用の 11 の Torchvision データセット

コンピュータービジョンは、著しい成長を遂げている分野であり、自動運転車から顔認識システムに至るまで、数多くの実用的なアプリケーションがあります。ただし、この分野の主な課題の 1 つは、機械学習モデルをトレーニングするための高品質のデータセットを认定することです。

この課題に対処するために、torchvision は、コンピュータービジョンタスク用に特別に設計された事前事后構築済みのデータセット、モデル、および変換へのアクセスを提高します。また、Torchvision は CPU と GPU アクセラレーションの両方をサポートしているため、コンピュータービジョンアプリケーションを開発するための柔軟で強力なツールとなっています。

「Torchvision データセット」とは何ですか?

Torchvision データセットは、機械学習モデルの開発とテストのためにコンピュータービジョンで一般的に使用される一般的なデータセットのコレクションです。 torchvision データセットを使用すると、開発者は、画像分類、オブジェクト検出、セグメンテーションなどのさまざまなタスクで機械学習モデルをトレーニングおよびテストできます。

データセットも前処理され、ラベル付けされ、簡単に読み込んで选用できる主要形式に編成されます。

Torchvision データセットのリスト

MNIST
CIFAR-10
CIFAR-100
ImageNet
ココ
ファッション-MNIST
SVHN
STL-10
セレブA
パスカル VOC
Places365

1.

この torchvision データセットは人気があり、機械学習とコンピュータービジョンの分野で広く施用されています。これは、手書きの阿拉伯加数 0 ～ 9 の 70,000 枚のグレースケール形象で構成され、トレーニング用に 60,000 枚の形象、テスト用に 10,000 枚の形象が含まれます。各形象のサイズは 28x28 ピクセルで、対応するラベルで、それが表す阿拉伯加数を示します。

このデータセットにアクセスするには、から直接ダウンロードできます。または torchvision を使用してデータセットをロードします。

 import torchvision.datasets as datasets # Load the training dataset train_dataset = datasets.MNIST(root='data/', train=True, transform=None, download=True) # Load the testing dataset test_dataset = datasets.MNIST(root='data/', train=False, transform=None, download=True)

PyTorch torchvision パッケージを使用して MNIST データセットをロードするためのコード。 2023 年 3 月 20 日にから取得。

2.

CIFAR-10 データセットは、10 クラスの 60,000 枚の 32x32 カラー肖像图片で構成され、クラスごとに 6,000 枚の肖像图片があります。合計 50,000 のトレーニングイメージと 10,000 のテストイメージがあり、さらに 5 つのトレーニングバッチと 1 つのテストバッチに分配され、それぞれに 10,000 のイメージがあります。

このデータセットは、からダウンロードできます。、または torchvision を使用してここにロード:

 import torch import torchvision import torchvision.transforms as transforms transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform) trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)

必要的に応じて、データローダーのバッチサイズとワーカープロセスの数を調整できることに注重してください。

PyTorch torchvision パッケージを使用して CIFAR-10 データセットをロードするためのコード。 2023 年 3 月 20 日にから取得。

3.

CIFAR-100 データセットには、100 クラスに 60,000 (50,000 のトレーニング肖像と 10,000 のテスト肖像) の 32x32 カラー肖像があり、クラスごとに 600 の肖像があります。 100 個のクラスは 20 個のスーパークラスにグループ化され、そのクラスを表す細かいラベルと、そのクラスが属するスーパークラスを表す粗いラベルが付いています。

Kaggle から Torchvision データセットをダウンロードするには、Kaggle にアクセスしてください。 そこにある指示に従ってください。あるいは、torchvision ライブラリを使用してデータセットをロードしたい場合は、次のようにすることができます。

 import torchvision.datasets as datasets import torchvision.transforms as transforms # Define transform to normalize data transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) ]) # Load CIFAR-100 train and test datasets trainset = datasets.CIFAR100(root='./data', train=True, download=True, transform=transform) testset = datasets.CIFAR100(root='./data', train=False, download=True, transform=transform) # Create data loaders for train and test datasets trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True) testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)

PyTorch torchvision パッケージを使用して CIFAR-100 データセットをロードするためのコード。 2023 年 3 月 20 日にから取得。

4.

torchvision の ImageNet データセットには、約 120 万のトレーニング半身像、50,000 の検証半身像、および 100,000 のテスト半身像が含まれています。データセット内の各半身像は、「猫」、「犬」、「車」、「飛行機」など、1,000 のカテゴリのいずれかでラベル付けされています。

この Torchvision データセットをダウンロードするには、 または torchvision にロードします。

 import torchvision.datasets as datasets import torchvision.transforms as transforms # Set the path to the ImageNet dataset on your machine data_path = "/path/to/imagenet" # Create the ImageNet dataset object with custom options imagenet_train = datasets.ImageNet( root=data_path, split='train', transform=transforms.Compose([ transforms.Resize(256), transforms.RandomCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) imagenet_val = datasets.ImageNet( root=data_path, split='val', transform=transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]), download=False ) # Print the number of images in the training and validation sets print("Number of images in the training set:", len(imagenet_train)) print("Number of images in the validation set:", len(imagenet_val))

PyTorch torchvision パッケージを使用して ImageNet データセットをロードするためのコード。 2023 年 3 月 21 日にから取得。

5.

Microsoft Common Objects in Context(MS Coco) データセットには、常规のオブジェクトと人間の 328,000 の高品質のビジュアルイメージが含まれており、リアルタイムのオブジェクト検出におけるアルゴリズムのパフォーマンスを比較するための標準としてよく应用されます。

この Torchvision データセットをダウンロードするには、 または torchvision にロードします。

 import torch from torchvision import datasets, transforms # Define transformation transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load training dataset train_dataset = datasets.CocoDetection(root='/path/to/dataset/train2017', annFile='/path/to/dataset/annotations/instances_train2017.json', transform=transform) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) # Load validation dataset val_dataset = datasets.CocoDetection(root='/path/to/dataset/val2017', annFile='/path/to/dataset/annotations/instances_val2017.json', transform=transform) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)

/path/to/dataset プレースホルダーは、データセットディレクトリへの実際のパスに置き換えてください。また、必不可少に応じて batch_size パラメータを調整します。

PyTorch torchvision パッケージを使用して MS Coco データセットをロードするためのコード。 2023 年 3 月 21 日にから取得。

6.

Fashion MNIST データセットは、元の MNIST データセットの代わりとして Zalando Research によって做成されました。 Fashion MNIST データセットは、衣料品の 70,000 のグレースケール半身像 (60,000 のトレーニングセットと 10,000 のテストセット) で構成されています。

形象のサイズは 28x28 ピクセルで、T シャツ/トップス、ズボン、プルオーバー、ドレス、コート、サンダル、シャツ、スニーカー、バッグ、アンクルブーツなど、10 種類の衣料品を表しています。これは元の MNIST データセットに似ていますが、衣類のアイテムがより複雑で多様であるため、分類タスクがより困難になっています。

この Torchvision データセットは、次の場所からダウンロードできます。、またはこのコードを使用してロードされます:

 import torch import torchvision import torchvision.transforms as transforms # Define transformations transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) # Load the dataset trainset = torchvision.datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform) testset = torchvision.datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform) # Create data loaders trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)

PyTorch torchvision パッケージを使用して Fashion-MNIST データセットをロードするためのコード。 2023 年 3 月 21 日にから取得。

7。

SVHN (Street View House Numbers) データセットは、Google のストリートビュー半身像から派生した半身像データセットであり、ストリートレベルの半身像から提供された家作品のトリミングされた半身像で構成されます。すべての番地とその修为ボックスを含む几乎な表现样式と、番地のみのトリミングされた表现样式で合理利用できます。几乎な表现样式はオブジェクト検出タスクによく动用されますが、トリミングされた表现样式は分類タスクによく动用されます。

SVHN データセットも torchvision パッケージに含まれており、トレーニング用の 73,257 枚の图像、テスト用の 26,032 枚の图像、追加のトレーニングデータ用の 531,131 枚の追加图像が含まれています。

この Torchvision データセットをダウンロードするには、次の URL にアクセスしてください。または、ここでロードできます。

 import torchvision import torch # Load the train and test sets train_set = torchvision.datasets.SVHN(root='./data', split='train', download=True, transform=torchvision.transforms.ToTensor()) test_set = torchvision.datasets.SVHN(root='./data', split='test', download=True, transform=torchvision.transforms.ToTensor()) # Create data loaders train_loader = torch.utils.data.DataLoader(train_set, batch_size=64, shuffle=True) test_loader = torch.utils.data.DataLoader(test_set, batch_size=64, shuffle=False)

PyTorch torchvision パッケージを使用して SVHN データセットをロードするためのコード。 2023 年 3 月 22 日にから取得。

8.

STL-10 データセットは、10 クラスで構成される半身像認識データセットで、合計で約 6,000 超过の半身像があります。 STL-10 は「Image Recognition-10 クラスの標準トレーニングおよびテストセット」の略で、データセット内の 10 クラスは次のとおりです。

飛行機
鳥
車
猫
鹿
犬
馬
猿
船
トラック

このデータセットにアクセスするには、から直接ダウンロードできます。または torchvision を使用してデータセットをロードします。

 import torchvision.datasets as datasets import torchvision.transforms as transforms # Define the transformation to apply to the data transform = transforms.Compose([ transforms.ToTensor(), # Convert PIL image to PyTorch tensor transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # Normalize the data ]) # Load the STL-10 dataset train_dataset = datasets.STL10(root='./data', split='train', download=True, transform=transform) test_dataset = datasets.STL10(root='./data', split='test', download=True, transform=transform)

PyTorch torchvision パッケージを使用して STL-10 データセットをロードするためのコード。 2023 年 3 月 22 日にから取得。

9.

この torchvision データセットは、人気のある大規模な顔魔抗データセットで、200,000 を超える着名人の画象で構成されています。 2015 年に我们香港中文名字大学考研の设计者によって初めて公開されました。CelebA の画象は、年齢、髪の色、表情图片、性別などの 40 の顔魔抗で構成されています。また、これらの画象はインターネットから达到されたもので、さまざまな人種、年齢、性別など、さまざまな顔の外観をカバーしています。各画象の顔の所在位置の修为ボックスの注釈と、目、鼻、口の 5 つのランドマークポイント。

このデータセットは次のサイトでダウンロードできますまたは、次のコードを使用してロードします。

 import torchvision.datasets as datasets import torchvision.transforms as transforms transform = transforms.Compose([ transforms.CenterCrop(178), transforms.Resize(128), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) celeba_dataset = datasets.CelebA(root='./data', split='train', transform=transform, download=True)

PyTorch torchvision パッケージを使用して CelebA データセットをロードするためのコード。 2023 年 3 月 22 日にから取得。

10.

VOC データセット (Visual Object Classes) は、視覚認識の最开始端を目指す PASCAL VOC チャレンジの一環として 2005 年に初めて導入されました。動物、乗り物、一样的な家庭生活物品など、20 種類のオブジェクトカテゴリの图像图片で構成されています。これらの各图像图片には、图像图片内のオブジェクトの地理位置と分類に関する注釈が付けられています。注釈には、程度ボックスとピクセルレベルのセグメンテーションマスクの両方が含まれます。

データセットは、トレーニングセットと検証セットの 2 つの一般なセットに拆分されます。トレーニングセットには注釈付きの約 5,000 枚の图像が含まれていますが、検証セットには注釈のない約 5,000 枚の图像が含まれています。さらに、データセットには約 10,000 枚の图像を含むテストセットも含まれていますが、このセットの注釈は公開されていません。

最近のデータセットにアクセスするには、 、または torchvision にロードします:

 import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='train', transform=transform) val_dataset = torchvision.datasets.VOCDetection(root='./data', year='2007', image_set='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)

PyTorch torchvision パッケージを使用して PASCAL VOC データセットをロードするためのコード。 2023 年 3 月 22 日にから取得。

11.

Places365 データセットは、365 のシーンカテゴリをカバーする 180 万を超える人物肖像を含む大規模なシーン認識データセットです。 Places365 Standard データセットは約 180 万の人物肖像で構成されていますが、Places365-Challenge データセットには、認識モデルにとってより困難な 50,000 の追加の検証人物肖像が含まれています。

このデータセットにアクセスするには、次を使用できますまたは torchvision をここにロードします:

 import torch import torchvision from torchvision import transforms # Define transformations to apply to the images transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # Load the train and validation datasets train_dataset = torchvision.datasets.Places365(root='./data', split='train-standard', transform=transform) val_dataset = torchvision.datasets.Places365(root='./data', split='val', transform=transform) # Create data loaders train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32, shuffle=False)

PyTorch torchvision パッケージを使用して Places365 データセットをロードするためのコード。 2023 年 3 月 22 日にから取得。