LlamaParse 无法解析目录内的文档

问题描述 投票:0回答:1

每当我尝试使用 LlamaParse 时,都会收到一条错误,指出 file_input 必须是文件路径字符串、文件字节或缓冲区对象。

parser = LlamaParse(result_type="markdown")
file_extractor = {'.pdf': parser}

reader = SimpleDirectoryReader(input_dir = './data', file_extractor=file_extractor,recursive=True).load_data()

完整错误:解析文件“”时出错:file_input 必须是文件路径字符串、文件字节或缓冲区对象 空响应

这就是我的文件夹结构的样子

我尝试使用不带 file_extractor 的 SimpleDirectoryReader 来查看问题是否出在 SimpleDirectoryReader 方法中,该方法在不使用该参数的情况下也有效。所以这个问题是 LlamaParse 引起的。

python llama-index ollama retrieval-augmented-generation
1个回答
0
投票

我最近在 LlamaParse 上遇到了同样的问题,这是我想到的唯一解决方案:

from llama_parse.base import ResultType, Language

parser = LlamaParse(result_type=ResultType.MD,language=Language.ENGLISH)
pdf_data = parser.load_data('{full_address}/app/data/Introduction-to-Insects.pdf')

此外,只要没有子目录,你就不需要

recursive=True

© www.soinside.com 2019 - 2024. All rights reserved.