apache-tika 相关问题

Apache Tika™工具包使用现有的解析器库检测和提取各种文档中的元数据和结构化文本内容。

根据字符串python的开始关键字和结束关键字切割字符串

我有一个pdf文件,我已经通过python中的Tika软件包阅读了。看来tika只能阅读整个pdf,而我只需要阅读第一页。我的代码如下所示:从tika导入解析器raw =解析器....

回答 1 投票 0

python如何在不重新下载的情况下将tika与现有的jar文件一起使用

我正在使用Tika,我意识到每次下载jar文件并将其放在Temp文件夹中检索http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/ tika -...

回答 1 投票 7


上传Word文件以通过TIKA REST提取文本

我正在尝试通过其REST API调用Apache-TIKA。我已经能够成功上传PDF文档并通过CURL curl -X PUT --data-binary @ 。pdf ...

回答 1 投票 0

如何为tika手动安装.jar文件?

我正在使用tika从python的pdf中提取文本。但是,每次运行时都会下载.jar。这很费时间。 [MainThread] [INFO]检索http://search.maven.org/remotecontent?...

回答 1 投票 0

从tika-app调用ctake解析器时获得异常

从tika-app调用cTAKES解析器时,得到以下信息:java -classpath $ HOME / src / ctakes-config:$ {TIKA_HOME} /tika-app/target/tika-app-XY-SNAPSHOT.jar:$ {CTAKES_HOME} / desc:$ {CTAKES_HOME} / ...

回答 1 投票 0

如何在c#或python或tika中提取.NSF文件

任何人都知道如何从.NSF文件中提取邮件文件和其他数据之类的数据。如何通过编程来做到这一点。

回答 2 投票 0

如何从tika-python lib设置TIKA_SERVER_ENDPOINT

[https://github.com/chrismattmann/tika-python文档中的优秀lib tika-python显示,可以设置tika_server.jar文件以避免每次使用...时进行下载...

回答 1 投票 0

来自字符串候选列表的模糊匹配

我有一份要从大量PDF文档中解析的公司名称列表。我已通过Apache Tika强制PDF提取原始文本,并且得到了200个列表...

回答 1 投票 1

当问题与pdf无关时,如何处理Tika Server警告422?

我的问题与这个人的问题非常相似:422 Tika服务器响应? Tika-Python,但不完全是。他的问题似乎在于阅读某些文档,但Tika可以正常工作,而...

回答 1 投票 0

OCR支持Tesseract通过SOLR

[好,我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本,但是还没有成功。 SOLR从结构化文本文档(.xls,.pdf,...

回答 1 投票 0

SpringBoot中的Tika解析器配置

我在项目中使用了tika解析器。我正在使用此包中的三个类:org.apache.tika.Tika; org.apache.tika.parser.txt.CharsetDetector; org.apache.tika.parser.txt.CharsetMatch;最后...

回答 1 投票 0

我可以从Stormcrawler获得哪些值/字段?

我正在使用Stormcrawler 1.15,ElasticSearch 7.5,并按照本教程进行操作以启动SC:https://www.youtube.com/watch?v=KTerugU12TY在我的crawler-conf.yaml中,我有:#索引器。 md ....

回答 1 投票 0

在tika-config.xml中更改解析器会导致“无法加载org.apache.tika.parser.DefaultParser”

我正在尝试在Nutch中启用Tika的BoilerpipeContentHandler解析器以从网页提取文章文本。为此,我已经配置了tika-config.xml以排除HTMLParser并激活...

回答 1 投票 0

使用Content-Type标头从eml文件中提取附件名称

我正在使用Tika服务器解析一堆eml文件。使用/ rmeta端点时,提取emls和附件的内容以及元数据都可以正常工作。正确的附件文件出现问题...

回答 1 投票 0

Tika解析错误:您正在调用POI中处理OOXML的部分。您需要调用POI的其他部分来处理此数据

我想用Tika解析.doc文件,但是它不起作用。我得到的错误是:由以下原因引起:org.apache.poi.openxml4j.exceptions.OLE2NotOfficeXmlFileException:提供的数据似乎在...

回答 1 投票 0

我如何清除pdf提取的代码,以便以后使用]]

我正在尝试从发票(pdf)中提取数据,将数据写入CSV并将所需的信息提取到GUI中(例如,该周售出了多少产品),我无法使用pypdf ...] >

回答 1 投票 0

AttributeError:“字节”对象在运行Tika解析器时没有属性“关闭”

我正在尝试使用Tika运行简单的代码解析行来解析PDF中的文本(在此示例中名为outputFileName)。这曾经运行没有错误。我最近将笔记本电脑送去了我们的工作...

回答 1 投票 1

如何从不可搜索的pdf中检测可搜索的pdf?

我有一堆pdf文件,有些是可搜索的常规pdf文件,有些是某些文档的扫描版本,这些文件无法搜索。我想提取每个pdf的内容。到...

回答 2 投票 1

将.doc / .docx转换为带有保留表的文本

我想将doc / docx文件转换为文本文件。我的要求是表格应该保持原样。我尝试了python tika。它将行转换为列,例如输入doc / docx文件中的表...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.