我想从文档(例如简历)中提取非常具体的内容,例如姓名、地址和出生日期。假设我有 1000 个此类文档,我想使用机器学习和自然语言处理将其自动化。最好是Python。
我怎样才能做到这一点?或者我从哪里开始?
更新:我知道 NER,但我希望从可以加载到 Excel 或其他内容的文档中提取非常具体的信息。
示例:从项目报告中,我想提取项目的主题、团队成员姓名和任期。
要提取名称,您可以使用下面的代码,
`从名称解析器导入 HumanName
def extract_name(文本): 行=文本.split(' ') 对于行中行: 线 = 线.strip() if line: # 检查该行是否不为空 姓名 = 人名(行) if name.first and name.last: # 简单检查名字和姓氏 返回str(名称) 返回“未找到名称”
名称 = 提取名称(文本) 打印(姓名)
` 有关更多详细信息,您可以参考此链接https://pypi.org/project/nameparser/
谢谢你