我有一个 csv,其中包含 id、context、question、answer_start 和 text 字段。我想将其导入 Hugging Face 作为问答训练的数据集,格式类似于 Squad
Hugging Face 期望将answer_start 和文本字段耦合到答案中,我无法将数据放入正确加载的表单中
尝试过的事情:将 csv 加载到 pandas 中,然后
df['answers'] = df.apply(lambda x: {"answer_start": x.answer_start, "text": x.text},
df = df[['id','question','context','answers']]
train_dataset = datasets.Dataset.from_pandas(df)
有什么建议吗?
我的工作如下
df['answers'] = df.apply(lambda x: {"answer_start": [x.answer_start], "text": [x.text]}