使用 *.dic *.aff 通过 Python 进行形态文本分析

问题描述 投票:0回答:2

我有 2 个 hunspell 格式的乌克兰语文件(.dic 和 .aff)。我的程序必须获取输入单词的基本形式。因此,它可以使用 .dic 文件中的单词形式和 .aff 文件中的 affices。即使使用 Hunspell util,我也不知道如何实现这一点,但假设这是可能的。

哪些 python 库可以使用 .dic 和 .aff 文件获取单词的基本形式?

python nlp hunspell morphological-analysis
2个回答
3
投票

正如之前所说,hunspell 是您需要的库。 示例来自 https://code.google.com/p/pyhunspell/wiki/UsingPyHunspell:

import hunspell
hobj = hunspell.HunSpell('/usr/share/myspell/en_US.dic', '/usr/share/myspell/en_US.aff')
hobj.spell('spookie')
>>>>False

hobj.suggest('spookie')
>>>>['spookier', 'spookiness', 'spooky', 'spook', 'spoonbill']

hobj.spell('spooky')
>>>>True

hobj.analyze('linked')
>>>>[' st:link fl:D']
hobj.stem('linked')
>>>>['link']

0
投票

只是更新说 le pyhunspell 项目不再出现在 googlecode 上。 以下是新链接:

至于add函数(在第一个答案的评论中提到),现在已记录在pydoc中。

© www.soinside.com 2019 - 2024. All rights reserved.