apache-tika 相关问题

Apache Tika™工具包使用现有的解析器库检测和提取各种文档中的元数据和结构化文本内容。

java.lang.NoClassDefFoundError:无法初始化类org.apache.pdfbox.pdmodel.font.PDFont

我在wildfly模块中使用Apache Tika(tika-app 1.17)。当我开始提取PDF时,它总是抛出错误:java.lang.NoClassDefFoundError:无法初始化类org.apache.pdfbox ....

回答 2 投票 0

“警告:JBIG2ImageReader未加载。”但[org.apache.pdfbox / jbig2-imageio“3.0.1”]存在?

我的项目是使用pantomime 2.10.0库[com.novemberain / pantomime“2.10.0”]与Leiningen一起构建的,这是Apache Tika的一些Clojure包装器。我在......的一些文件中找到了...

回答 1 投票 1

解析二进制文件时出错

我试图在将PDFBOX版本升级到1.6.0之后使用Apache Tika解析pdf文件...我开始在几个pdf文件中收到此错误。有什么建议? java.io.IOException:expected ='...

回答 1 投票 0

让ExtractingRequestHandler在Solr中工作

我试图让Solr与Tika合作,因此我可以在Drupal网站上索引Word和PDF文档。我查看了Wiki页面和这个页面,它们表明在...中添加了requestHandler

回答 1 投票 4

不从Remotely索引或提取Document(.pdf .doc)

我使用Solr 3.1,Apache Tika 0.9和Solrnet 0.3.1来索引像.doc和.pdf文件这样的docuent。我已使用此代码Startup.Init成功在本地索引和提取文档

回答 2 投票 2

solr搜索返回结果,但需要在文本搜索之前和之后的一些句子

我正在使用Apache Solr 3.6.0。我用这个命令索引了一个文件:curl“http:// localhost:8983 / solr / update / extract?stream.file = / home / Desktop / DOCUMENTS / x.pdf&stream.contentType = application / ...

回答 1 投票 0

使用TIKA提取网址的内容(文本)

如何从网址中提取文本?在我的代码中,它正在提取该URL的源代码... DefaultHttpClient client = null; client = new DefaultHttpClient(); client.getCredentialsProvider()....

回答 2 投票 0

Tika检测到Tesseract,但没有执行任何OCR

我刚刚从Github的存储库安装了Tika,并尝试OCR包含扫描文档页面的PDF。 java -cp tika-app / target / tika-app-1.17-SNAPSHOT.jar org.apache.tika.cli.TikaCLI / tmp / ...

回答 1 投票 0

Apache Tika将AC3文件解析为application / octet-stream而不是audio / ac3

提供AC3音频文件作为输入,获取InputStream并将其传递给Apache Tika。虽然库在其mime类型XML中列出了audio / ac3,但它无法识别类型。它与其他工作正常...

回答 1 投票 2

Apache Tika中的MediaType和MimeType类有什么区别?

Apache Tika中有两个cals(截至1.4):org.apache.tika.mime.MimeType和org.apache.tika.mime.MediaType。它们都代表了类似的东西,似乎解决了类似的任务。我想知道, ...

回答 1 投票 0

Apache Tika - 色彩空间的可能值

我正在使用Apache Tika从图像文件中提取元数据。它运行良好,但为了以编程方式分析结果,我必须知道每个属性的可能值是什么。是......

回答 1 投票 0

如何从Tika中删除NLP?

我只是想从文档中提取数据。所以我认为我不需要OpenNLP。有没有办法轻松拿出来让我的Tika更轻?

回答 1 投票 0

跟踪更改的docx在Apache Tika中产生错误的输出

我正在使用apache tika解析docx文件。 AutoDetectParser解析器= new AutoDetectParser(); ContentHandler contentHandler = new BodyContentHandler(); inputStream = new BufferedInputStream(new ...

回答 1 投票 0

如何使用Apache Tika跳过页眉和页脚提取

如何使用apache tika提取没有页眉和页脚的文件(pdf,docx,doc,odt)。

回答 2 投票 0

使用EmbeddedSolrServer中的solrj为包含内容的文档编制索引

我想使用Filter查询查询EmbeddedSolrServer实例。就像我们通常在图片中使用管理面板一样。但问题是我想用Java编程。一世 ...

回答 1 投票 0

Adobe Acrobat / Python PDF输出不同

我注意到当我使用OCR将扫描的PDF文档转换为文本时,在这种情况下是Adobe Acrobat Pro,根据我提取数据的方式,我得到的输出非常不同。在里面 ...

回答 1 投票 1

如何使用hadoop Map reduce处理/提取.pst

我正在使用MAPI工具(它的微软lib和.NET),然后使用apache TIKA库来处理和从交换服务器中提取pst,这是不可扩展的。如何使用...处理/提取pst

回答 2 投票 2

Apache Tika ArchiveStreamFactory.detect错误

我正在使用java with apache tika 1.18将一些文件转换为TXT。当我尝试使用AutoDetectParser()时,我收到错误:[ERROR]错误处理期间出错,放弃!组织....

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.