我有一个判决句子文本的数据集,如下所示 “被告人因持械抢劫罪被判有期徒刑10年,并处罚金5美元及规费。考虑到被告人配合调查且无前科,减刑自本裁决最终生效之日起最高可判处 5 年监禁。”
我如何训练/调整模型/(哪些模型最好)并预处理数据以理解文本,并只给我减刑“从本裁决最终生效之日起入狱 5 年”。作为输出
这看起来像是一个被框架为摘要生成任务的问题。
为了让事情变得简单并为您提供一个起点,这里有一些需要考虑的基本方面
您可以有两种类型的摘要:抽象和提取。
您的情况是前者,因为您确实想要一个
捕获的输入文本的摘要/固有逻辑,而不是仅提取一些
具体的话。如果您只想要后者,您也可以将您的问题构建为 NER(命名实体识别问题),而不仅仅是提取摘要问题。
您需要生成训练对,例如
[full_text, summary]
才能训练您的模型。
对于这样的数据集(抽象概括)你可以尝试搜索
在线,这是此类数据集的示例:
https://paperswithcode.com/dataset/billsum。
一旦您看到数据集的样子,您就可以尝试创建一个
您自己的类似数据集,然后微调法学硕士以满足
你的用例。这是关于 HuggingFace 的教程,介绍如何对上面指定的确切数据集进行抽象摘要的微调:https://huggingface.co/docs/transformers/tasks/summarization