我正在尝试下载总计 29GB 的“librispeech_asr”数据集,但由于 google colab 空间有限,我无法下载/加载该数据集,即笔记本崩溃了。
所以我做了一些研究,发现了
split
参数,我们可以传入load_dataset
函数来下载部分数据集,但它仍然在笔记本上下载整个30GB数据集。论据split
不起作用......
from datasets import load_dataset
dataset = load_dataset("librispeech_asr", 'clean', split=['train.360[:50%]', 'validation'])
我试图仅加载 50% 的“train.360”数据,但我无法这样做。
正确的方法是什么,我做错了什么?
您可以使用他们的 String API 或 ReadInstruction API 解释这里
您可以构建训练、测试、验证不同大小的分割(例如 split='train[:10%]');但是,整个数据(文件)将加载到数据集对象中
试试这个:
从数据集导入load_dataset
要获取的样本数 = 1000
dataset_name = "EleutherAI/pile" ds = load_dataset(dataset_name, "subset_name", split="train", Streaming=True) # 子集名称: ['all', 'enron_emails', 'europarl', 'free_law', 'hacker_news', 'nih_exporter', ' pubmed'、'pubmed_central'、'ubuntu_irc'、'uspto'、'github']
ds = ds.take(num_samples_to_take)