我正在开发一个从自定义文档中提取个人信息的项目。特别是,我有一个包含大量姓名和信息的 txt 文件,但我想提取姓名和意大利财政代码。 我的实际方法是基于正则表达式,但我不是很满意,因为正则表达式模式确实始终匹配我需要的所有内容。我正在考虑 NLP 方法,但我不知道如何实现。我认为实际上没有任何图书馆接受过意大利语词汇培训。请问您能帮助我或给我一些建议吗? 提前非常感谢!!
我尝试了一种基于正则表达式的方法,该方法在标准文档上效果很好,但在强自定义文档上它经常失败。
我会尝试直接用意大利语提示 ChatGPT 为您提取此信息。他们有一个 API,您可以使用简单的 Python 代码访问,您可以告诉它您到底想要提取什么以及以什么输出格式(例如 json)。
此外,您还可以使用传统的 NER 模型,主要用于名称,例如还支持意大利语的 spacy(请参阅:https://spacy.io/usage/models)或需要付费的 Google 模型。
我相信,使用正则表达式来保护财务信息将获得最佳结果。