我希望获得解决我无法解决的问题的帮助。工作环境如下:
系统
TYPO3 v.11.5
TYPO3设置(设置)
管理工具 > 设置 > 扩展配置
索引搜索
站点爬虫配置
网站的根页面 我尝试了多种配置来尝试索引 pdf,例如:
FilePath - 配置路径:fileadmin 和深度:以下 4 级
限制扩展名(commalist)pdf(以避免其他文件,如 doc、 rtf等)
带表的数据库记录:文件
问题 我发现 TYPO3 网站上的说明在屏幕上更新得不太好,并且在某些方面还不够。我知道,即使没有安装“爬虫”扩展,在页面的每次更新时,也不是从活动后端执行的(我假设使用另一个浏览器)TYPO£,索引搜索会解析页面,提取它认为有用的单词用于索引,然后读取链接并对其进行索引;关于 PDF,您应该一张一张地打开它们,使用 pdftotext/pdfinfo 检查它们,并从结果文本中获取其他关键字来索引文档。
因此我尝试了各种方法,甚至手动启动爬虫,先填充队列,然后定义进程,启动它观察进度百分比。
仅通过爬虫(手动启动)或访问网站对页面进行索引。
来自网络 > 索引 >(根页面):
测试
调试和日志 调试是否激活,没有任何显示或注册器 检查 /web/typo3temp/var/log/*.log 我找不到任何有效的条目来了解发生了什么 站点错误日志没问题 ?
希望能得到一些帮助,非常感谢
这个问题似乎与 EXT:crawler 有关,并且似乎也是那里的一个已知问题:
https://github.com/tomasnorre/crawler/issues/1057
也许考虑切换到EXT:ke_search