文本挖掘是从非结构化(文本)信息中获取高质量信息的过程。
假设我具有以下字符串c(“>程序日期:01/09/2018程序日期:01/10/2018程序日期:03/09/2018程序日期:...
我知道可能会问类似的问题,但我觉得我的要求很特殊。我有两个数据框,其中拼写错误的单词,还有另一个数据框,其中我已手动更正。 ...
我已使用Apache tika从PDF中提取了此文本。我想以这种方式拆分文本,使每个问题/答案仅得到一行。最终结果必须是表格结构。这是...
我想对列表中的元素进行分组-每个组都有定义的开始和结束:data = ['§349','Abs。','2','4','StPO','1', '3','42','§306a','Abs。','1','Nr。','1','StGB','§306b','Abs .'...
我设法评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳词汇?我了解给定单词和文档的低tf-idf意味着...
我有一个数据框,其中有一列包含每行票证的日志。这是日志的示例:99645,\ Submitted 、、 \ 2015年1月1日所做的修改,x_change0:-> info0,y_status1:...
我有这样的代码:corpus = ['这是第一个文档。','该文档是第二个文档。','这是第三个文档。','这个文档是...
我正在尝试为特定的两个和三个单词短语挖掘一组PDF。我知道这个问题在各种情况下都会被问到,并且该解决方案部分有效。但是,列表不...
我有一个带有唯一参考和自由文本字符串参考文本1的表。此项非常有趣。 2.该单元格正常。 3. ...
我正在尝试在Win10上为Orange(版本3.23)安装Text附加组件(版本0.7.3),但在构建“ ufal_udpipe”时出现以下错误:命令失败:python python -m。 ..
我正在开发一个可按主题/主题组织和可视化许多PDF文档的应用程序。我可以上传和阅读一个PDF,但是我很难阅读多个PDF文档。对于单个...
如何连同前瞻/向后断言结合用户输入的正则表达式来获得这个词的背景下? user_term =输入(“输入搜索词:”)字=“你好,这是一个自动生成的...
我想从我的数据帧中删除所有的空行。问题是行不完全是空的,有些有一个空间,其他多个空格和换行。这里是一个例子:new_tweetsdf [[35] [1] ...
我试图寻找利用当前趋势在我的时间表关键字约20,000鸣叫。不过,我只获得约88鸣叫。这些热门关键字在整个国家......
我有树语料库如下(TOP END_OF_TEXT_UNIT)(TOP(S(NP(DT的)(NNP富尔顿)(NNP县)(NNP大)(NNP陪审团))(VP(VBD说)...
我期待调整此代码,以便我可以把这些情态动词的每一个分配有不同的权重。我们的想法是使用类似NRC库,在这里我们有“数字” 1-5的东西...
我有一个大约20页的文本文件,大约200个段落。每个段落包含三行描述一个人的信息,如:姓名:John年龄:26电话号码:123421姓名:...
我在“棕色语料库”上训练了一个Word2vec模型。我想将矢量化的单词应用到一个新的文本文档中,然后我想通过Affinity Propagation聚类。进口gensim ...