NN VBD IN DT NNS RB在NLTK中意味着什么?

问题描述 投票:17回答:3

当我分块文本时,我在输出中得到了很多代码,比如NN, VBD, IN, DT, NNS, RB。是否有某个列表记录在哪里告诉我这些的含义?我试过用谷歌搜索nltk chunk code nltk chunk grammar nltk chunk tokens

但我无法找到任何解释这些代码含义的文档。

python nlp nltk text-parsing pos-tagger
3个回答
13
投票

您看到的标签不是块的结果,而是在分块之前发生的POS标记。这是Penn Treebank标签集,请参阅https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])

要获取块,请在分块输出中查找子树。从上面的输出中,Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')])表示块。

本教程网站非常有助于解释NLTK中的分块过程:http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf

有关官方文档,请参阅http://www.nltk.org/howto/chunk.html


2
投票

即使上面的链接有各种各样的。但是希望这对某些人来说仍然有用,在其他链接上添加了一些错过的内容。

CC:协调联合

CD:基数

DT:确定

EX:存在于那里

FW:外国词

IN:介词或从属连词

JJ:形容词

副总裁:动词短语

JJR:形容词,比较

JJS:形容词,最高级

LS:列表项标记

MD:资本

NN:名词,单数或质量

NNS:名词,复数

PP:介词短语

NNP:专有名词,单数短语

NNPS:专有名词,复数

PDT:预先确定者

POS:拥有结局

PRP:人称代词短语

PRP:占有代词短语

RB:副词

RBR:副词,比较

苏格兰皇家银行:副词,最高级

RP:粒子

S:简单的声明性条款

SBAR:由(可能是空的)从属连接引入的条款

SBARQ:由wh-word或wh-phrase引入的直接问题。

SINV:倒置的陈述句,即主语遵循紧张的动词或模态的句子。

SQ:在SBARQ中的wh-phrase之后反转是/否问题,或wh问题的主要条款。

SYM:符号

VBD:动词,过去式

VBG:动词,动名词或现在分词

VBN:动词,过去分词

VBP:动词,非第三人称单数礼物

VBZ:动词,第3人单数礼物

WDT:Wh-determininer

WP:Wh代名词

WP:拥有wh代名词

WRB:Wh-adverb


0
投票

正如Alvas上面所说,这些标签是词性,它告诉单词/短语是名词短语,副词,限定词,动词等...

以下是您可以参考的POS Tag详细信息。

Chunking recovers the phrased from the Part of speech tags

你可以参考这个link阅读有关分块的内容。

© www.soinside.com 2019 - 2024. All rights reserved.