当问题与pdf无关时,如何处理Tika Server警告422?

问题描述 投票:0回答:1

我的问题与此人的问题非常相似:

422 Tika server response? Tika-Python

但不完全是。他的问题似乎在于阅读某些文档,但是Tika可以正常工作,而对我来说文档很好,但是Tika却失败了。我最近在4周前使用了以下python代码,没有任何问题:

from tika import unpack
result = unpack.from_file(file)

[注意:我无法缩进上面的代码。它只会跳到下一部分]

当我使用此代码时会发生的事情是,它只是输出一个空字典。我收到警告:

Tika服务器返回状态:422

但没有错误消息。我所有的PDF文档都会发生这种情况,因此问题不在于PDF文档。此外,我过去经常使用完全相同的代码,没有任何问题。我对Tika完全没有经验,只使用这小段代码,因为当我使用Python的pdfviewer时,它不起作用。因此,这是我找到的唯一可以读取我感兴趣的PDF的软件包。我尝试使用pip install Tika重新下载Tika,但已满足要求。我也尝试过此命令行:

java -jar tika-app.jar -s file.pdf

但是我收到了错误消息:

错误:无法访问jarfile tika-app.jar

我对如何处理该错误进行了一些研究,因此将其输入命令行:

java -jar tika-server-1.18.jar -h 0.0.0.0

但是返回了消息:

错误:无法访问jarfile tika-server-1.18.jar

通常,当我使用Tika时,会花一些时间才能使应用程序运行,而这次却没有发生。也许问题是我无法运行该应用程序。在线的Tika文档假定读者已经在前端编程方面有相当多的经验,而我的所有经验都是在后端编程上,所以无论如何我都不会碰头。

python apache-tika
1个回答
0
投票

默认情况下,tika服务器进程保持在后台运行,并尝试在/ tmp目录中找到tika-server.jar。如果该目录被刷新并且jar不存在,您将看到Tika服务器返回状态:422错误。

您可以通过运行以下命令查看该过程:ps -eaf | grep'tika'

在我们的案例中,终止进程有效。

© www.soinside.com 2019 - 2024. All rights reserved.