如何使用 NLP 和 python 从文档中提取特定内容,例如姓名或出生日期?

问题描述 投票:0回答:2

我想从文档(例如简历)中提取非常具体的内容,例如姓名、地址和出生日期。假设我有 1000 个此类文档,我想使用机器学习和自然语言处理将其自动化。最好是Python。
我怎样才能做到这一点?或者我从哪里开始?

更新:我知道 NER,但我希望从可以加载到 Excel 或其他内容的文档中提取非常具体的信息。

示例:从项目报告中,我想提取项目的主题、团队成员姓名和任期。

python machine-learning nlp
2个回答
1
投票

我认为您正在寻找的是 NLP 中的命名实体识别(NER)。

实际上,实体可以是人名、地名、公司名称等。

您可以查看此 stackOverFlow answer 了解更多信息。


0
投票

要提取名称,您可以使用下面的代码,

`从名称解析器导入 HumanName

def extract_name(文本): 行=文本.split(' ') 对于行中行: 线 = 线.strip() if line: # 检查该行是否不为空 姓名 = 人名(行) if name.first and name.last: # 简单检查名字和姓氏 返回str(名称) 返回“未找到名称”

名称 = 提取名称(文本) 打印(姓名)

` 有关更多详细信息,您可以参考此链接https://pypi.org/project/nameparser/

谢谢你

© www.soinside.com 2019 - 2024. All rights reserved.