如何从huggingface load_dataset加载一定百分比的数据

Question

我正在尝试下载总计 29GB 的“librispeech_asr”数据集，但由于 google colab 空间有限，我无法下载/加载该数据集，即笔记本崩溃了。

所以我做了一些研究，发现了

split

参数，我们可以传入

load_dataset

函数来下载部分数据集，但它仍然在笔记本上下载整个30GB数据集。论据

split

不起作用......

from datasets import load_dataset

dataset = load_dataset("librispeech_asr", 'clean', split=['train.360[:50%]', 'validation'])

我试图仅加载 50% 的“train.360”数据，但我无法这样做。

正确的方法是什么，我做错了什么？

Answer 1

您可以使用他们的 String API 或 ReadInstruction API 解释这里

Answer 2

您可以构建训练、测试、验证不同大小的分割（例如 split='train[:10%]'）；但是，整个数据（文件）将加载到数据集对象中

Answer 3

试试这个：

从数据集导入load_dataset

要获取的样本数 = 1000

dataset_name = "EleutherAI/pile" ds = load_dataset(dataset_name, "subset_name", split="train", Streaming=True) # 子集名称: ['all', 'enron_emails', 'europarl', 'free_law', 'hacker_news', 'nih_exporter', ' pubmed'、'pubmed_central'、'ubuntu_irc'、'uspto'、'github']

ds = ds.take(num_samples_to_take)

如何从huggingface load_dataset加载一定百分比的数据

问题描述投票：0回答：3

3个回答

最新问题

如何从huggingface load_dataset加载一定百分比的数据

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3