我有 2 个 hunspell 格式的乌克兰语文件(.dic 和 .aff)。我的程序必须获取输入单词的基本形式。因此,它可以使用 .dic 文件中的单词形式和 .aff 文件中的 affices。即使使用 Hunspell util,我也不知道如何实现这一点,但假设这是可能的。
哪些 python 库可以使用 .dic 和 .aff 文件获取单词的基本形式?
正如之前所说,hunspell 是您需要的库。 示例来自 https://code.google.com/p/pyhunspell/wiki/UsingPyHunspell:
import hunspell
hobj = hunspell.HunSpell('/usr/share/myspell/en_US.dic', '/usr/share/myspell/en_US.aff')
hobj.spell('spookie')
>>>>False
hobj.suggest('spookie')
>>>>['spookier', 'spookiness', 'spooky', 'spook', 'spoonbill']
hobj.spell('spooky')
>>>>True
hobj.analyze('linked')
>>>>[' st:link fl:D']
hobj.stem('linked')
>>>>['link']
只是更新说 le pyhunspell 项目不再出现在 googlecode 上。 以下是新链接:
至于add函数(在第一个答案的评论中提到),现在已记录在pydoc中。