我
刚开始学习 NLP,我正在尝试通过做教程来学习,rn 我正在尝试分析语料库,我想知道 nlstk 标签是否支持任何语言?另外,如果你有任何学习 NLP 的建议(比如 cirrculum),我会很高兴
from newspaper import Article, fulltext # pip install newspaper3k
import requests, string
url = 'https://www.haber7.com/guncel/haber/3319295-erdoganin-dogal-gaz-mujdesinden-rahatsiz-oldular'
article = Article(url)
article.download()
article.parse()
text=article.text
clean_text = text.translate(str.maketrans('','', string.punctuation)).lower()
print(clean_text)
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')
my_stopwords=set(stopwords.words('turkish'))
tokenized= nltk.word_tokenize(clean_text)
words=[]
for token in tokenized:
if token not in my_stopwords:
words.append(token)
##### here is the part that I wonderd
import nltk
nltk.download('averaged_perceptron_tagger')
from collections import Counter
def pos_taggin(tokens):
tags=nltk.pos_tag(tokens)
counts= Counter(tag for word, tag in tags)
return counts
pos=pos_taggin(tokenized)
print(pos)
##List of pos-tags
nltk.download('tagsets')
nltk.help.upenn_tagset()
我只想知道标签是否适用于任何语言。我的意思是即使语料库是土耳其语,它仍然计算动词吗?实际上我想知道这东西是怎么理解它是英语还是土耳其语的,因为我只是将停用词声明为土耳其语.
我不知道这是否是一个质量问题,但我仍然会感谢你。
我只想知道标签是否适用于任何语言。我的意思是即使语料库是土耳其语,它仍然计算动词吗?实际上我想知道这东西是怎么理解它是英语还是土耳其语的,因为我只是将停用词声明为土耳其语.