我是自然语言处理的初学者。我必须研究不同的语言,泰米尔语就是其中之一。我可以向专家询问是否有任何泰米尔语分词器代码(java、c、python 等)和词性标记器代码可供我用于研究?
如果我能在这里得到一些专家的意见,我真的很感激。如有任何帮助,我们将不胜感激。
谢谢
我找到了一种标记化工具Indic NLP Library。它支持泰米尔语。
我在互联网上没有找到可用的词性标注工具,但我找到了一些论文:
2008 基于词素的语言模型 用于泰米尔语词性标记
2009 泰米尔语词性的 CRF 模型 标记和分块
2009 基于规则的形态学改进 泰米尔语分析和词性标注 通过投影和感应技术
也许您可以联系作者寻求帮助。
或者如果你会说泰米尔语,在互联网(尤其是大学网站)上搜索泰米尔语,你可能会找到一些资源和工具。
节有。
import logging
import stanza
logging.getLogger('stanza').setLevel(logging.ERROR)
Download and initialize the Tamil model
stanza.download('ta')
nlp = stanza.Pipeline(lang='ta')
# Sample text in Tamil
text = "தமிழ் எங்கள் உயிருக்கு நேர்."
# Process the text
doc = nlp(text)
# Iterate over the sentences and tokens to print POS tags
print(f'{"POS":<7} | {"WORD":<10}')
for sentence in doc.sentences:
for word in sentence.words:
print(f"{word.pos:7} | {word.text}")
输出:
POS | WORD
PROPN | தமிழ்
PRON | எங்கள்
NOUN | உயிருக்கு
VERB | நேர்
PUNCT | .