如何使用 NLP 和 python 从文档中提取特定内容，例如姓名或出生日期？

Question

我想从文档（例如简历）中提取非常具体的内容，例如姓名、地址和出生日期。假设我有 1000 个此类文档，我想使用机器学习和自然语言处理将其自动化。最好是Python。
我怎样才能做到这一点？或者我从哪里开始？

更新：我知道 NER，但我希望从可以加载到 Excel 或其他内容的文档中提取非常具体的信息。

示例：从项目报告中，我想提取项目的主题、团队成员姓名和任期。

Answer 1

我认为您正在寻找的是 NLP 中的命名实体识别（NER）。

实际上，实体可以是人名、地名、公司名称等。

您可以查看此 stackOverFlow answer 了解更多信息。

Answer 2

要提取名称，您可以使用下面的代码，

`从名称解析器导入 HumanName

def extract_name(文本): 行=文本.split(' '）对于行中行：线 = 线.strip() if line: # 检查该行是否不为空姓名 = 人名(行) if name.first and name.last: # 简单检查名字和姓氏返回str（名称）返回“未找到名称”

名称 = 提取名称（文本）打印（姓名）

` 有关更多详细信息，您可以参考此链接https://pypi.org/project/nameparser/

谢谢你