请大家在Mac OS上的Eclipse IDE上使用nltk?我试图找到nltk语料库数据的存储位置。我做了一些挖掘,发现它们位于我这台路径的机器上:/ Library / Frame /Python.framework / Version / 1.7 / lib / python2.7 / site-packages / nltk / init.pyc但是当我搬进在nltk目录中,我找到了一个语料库文件夹,但里面却没有类似于语料库。任何有关于接下来要做什么的提示的人?
Corpora不是作为基础nltk
包的一部分分发的,因为并非该模块的所有用户都需要它们,并且其中许多都非常大 - 最后我检查过,有一个被列为1.7 GB,而不仅仅是一个简单的下载关于任何人。
但是,如果您阅读了优秀的NLTK docs,您将立即看到如何选择语料库进行下载:
>>> import nltk
>>> nltk.download()
这将打开一个很好的基于Tk的GUI(在适当的环境中)或基于文本的GUI,并允许您搜索,选择和下载感兴趣的语料库,甚至可以获得所有内容,这在高技术圈子中称为“整个shebang。“您甚至可以选择存储新下载语料库的目录。简单!
您以某种方式找到的corpus
目录包含nltk.corpus
的源代码,该代码具有处理语料库的工具,而不是实际的语料库本身。
在MacOS上,它似乎默认为您的主目录,所以/Users/X/nltk_data
。但是,它取决于您安装它的位置。根据MattDMo的评论,如果你找不到你需要的东西,打开GUI会给你更多答案:
import nltk
nltk.download()
如果您只想在特定位置安装它,请考虑命令行选项(这对Docker和脚本也很有用):
python3 -m nltk.downloader -d /Users/X/nltk_data all