你如何改变Pytorch数据集的大小？

Question

假设我从torchvision.datasets.MNIST加载MNIST，但我只想加载10000个图像，我如何切片数据以将其限制为只有一些数据点？我知道DataLoader是一个生成器，产生的数据大小与指定的批量大小相同，但是如何对数据集进行切片？

tr = datasets.MNIST('../data', train=True, download=True, transform=transform)
te = datasets.MNIST('../data', train=False, transform=transform)
train_loader = DataLoader(tr, batch_size=args.batch_size, shuffle=True, num_workers=4, **kwargs)
test_loader = DataLoader(te, batch_size=args.batch_size, shuffle=True, num_workers=4, **kwargs)

Answer 1

重要的是要注意，当您创建DataLoader对象时，它不会立即加载您的所有数据（对于大型数据集而言它是不切实际的）。它为您提供了一个可用于访问每个样本的迭代器。

不幸的是，qazxsw poi没有为您提供任何方法来控制您想要提取的样本数量。您将不得不使用切片迭代器的典型方法。

最简单的事情（没有任何库）将在达到所需数量的样本后停止。

DataLoader

或者，您可以使用nsamples = 10000 for i, image, label in enumerate(train_loader): if i > nsamples: break # Your training code here.获取前10k样本。像这样。

itertools.islice

Answer 2

切片数据集的另一种快速方法是使用for image, label in itertools.islice(train_loader, stop=10000): # your training code here.（在PyTorch v0.4.1 +中支持）。它有助于将数据集随机拆分为给定长度的非重叠新数据集。

所以我们可以得到以下内容：

torch.utils.data.random_split()

在这里，您可以将tr = datasets.MNIST('../data', train=True, download=True, transform=transform) te = datasets.MNIST('../data', train=False, transform=transform) part_tr = torch.utils.data.random_split(tr, [tr_split_len, len(tr)-tr_split_len])[0] part_te = torch.utils.data.random_split(te, [te_split_len, len(te)-te_split_len])[0] train_loader = DataLoader(part_tr, batch_size=args.batch_size, shuffle=True, num_workers=4, **kwargs) test_loader = DataLoader(part_te, batch_size=args.batch_size, shuffle=True, num_workers=4, **kwargs)和tr_split_len分别设置为训练和测试数据集所需的分割长度。

你如何改变Pytorch数据集的大小？

问题描述投票：5回答：2

2个回答

最新问题

你如何改变Pytorch数据集的大小？

问题描述 投票：5回答：2

2个回答

最新问题

问题描述投票：5回答：2