TYPO3 索引搜索无法索引 PDF 文件

问题描述 投票:0回答:1

我希望获得解决我无法解决的问题的帮助。工作环境如下:

系统

  • Debian 12 书呆子
  • PHP 7.4(尝试过8.2和8.3,爬虫失败)+ FPM/FastCGI
  • /usr/bin/pdftotext 和 /usr/bin/pdfinfo 安装了
  • openbase 目录:/usr/bin

TYPO3 v.11.5

  • 索引搜索引擎 11.5.38
  • 网站爬虫11.0.7
  • bootstraP 包
  • 12.0.10(所有扩展均已正确安装)

TYPO3设置(设置)

  • page.config.index_enable = 1
  • page.config.index_externals = 1

管理工具 > 设置 > 扩展配置

索引搜索

  • PDF解析器的路径 /usr/bin
  • PDF解析模式:0
  • 全文数据长度0
  • 启用变音位搜索(听起来像)1
  • 忽略扩展名 jpg、gif.jpeg、html
  • 调试模式:选中
  • 最大外部文件:99
  • 使用“爬虫”扩展来索引外部文件未选中

站点爬虫配置


网站的根页面 我尝试了多种配置来尝试索引 pdf,例如:

  • FilePath - 配置路径:fileadmin 和深度:以下 4 级

  • 限制扩展名(commalist)pdf(以避免其他文件,如 doc、 rtf等)

  • 带表的数据库记录:文件


问题 我发现 TYPO3 网站上的说明在屏幕上更新得不太好,并且在某些方面还不够。我知道,即使没有安装“爬虫”扩展,在页面的每次更新时,也不是从活动后端执行的(我假设使用另一个浏览器)TYPO£,索引搜索会解析页面,提取它认为有用的单词用于索引,然后读取链接并对其进行索引;关于 PDF,您应该一张一张地打开它们,使用 pdftotext/pdfinfo 检查它们,并从结果文本中获取其他关键字来索引文档。

因此我尝试了各种方法,甚至手动启动爬虫,先填充队列,然后定义进程,启动它观察进度百分比。

仅通过爬虫(手动启动)或访问网站对页面进行索引。

来自网络 > 索引 >(根页面):

  • 列表:页面 - 索引统计仅显示索引内容(类型、日期等),但不显示 pdf 文件
  • 列表:外部文档 - 列表始终为空
  • 详细统计 -> 概述 - 列出所有页面,但没有相关或列出的 pdf

测试

  • 索引搜索配置:使用“爬虫”扩展来索引外部文件设置为1或更少的事情不会改变
  • 我偶然发现,通过在搜索框中输入关键字“pdf”,我看到 6 个索引文件,尽管上面进行了重复测试,但没有添加新文件。更糟糕的是,这些文件是重复的,即输出是:document1-1-12.pdf(指第1-12页)document1-13-25.pdf(第13-25页)等。

调试和日志 调试是否激活,没有任何显示或注册器 检查 /web/typo3temp/var/log/*.log 我找不到任何有效的条目来了解发生了什么 站点错误日志没问题 ?

希望能得到一些帮助,非常感谢

web-crawler typo3 typo3-extensions tx-indexed-search
1个回答
0
投票

这个问题似乎与 EXT:crawler 有关,并且似乎也是那里的一个已知问题:
https://github.com/tomasnorre/crawler/issues/1057

也许考虑切换到EXT:ke_search

© www.soinside.com 2019 - 2024. All rights reserved.