识别文本中不同格式名称的算法

问题描述 投票:0回答:3

我需要开发一个应用程序来索引多个文本,并且我需要在这些文本中搜索人名。问题是,虽然一个人的全名是“Gregory Jackson Junior”,但在文本中,这个名字可能会写成:

  • 小格雷格·杰克逊
  • 小格戈里·杰克逊
  • 格雷戈里·杰克逊
  • 格雷戈里·J·朱尼尔
    我计划每晚对文本进行索引,并建立数据库索引以加快搜索速度。我想推荐有关该主题的好书和/或好文章。
    谢谢
algorithm string search nlp
3个回答

2
投票

您的问题措辞不正确。这些示例并不表示拼写错误,而是以全名的书写形式进行了更改。

还有,

好吧,阅读你的评论表明你不想冒险这样做。


1
投票

仅供记录。使用贝叶斯过滤器。您可以使用机械卡车来初始化您的算法。

© www.soinside.com 2019 - 2024. All rights reserved.