每当我尝试使用 LlamaParse 时,都会收到一条错误,指出 file_input 必须是文件路径字符串、文件字节或缓冲区对象。
parser = LlamaParse(result_type="markdown")
file_extractor = {'.pdf': parser}
reader = SimpleDirectoryReader(input_dir = './data', file_extractor=file_extractor,recursive=True).load_data()
完整错误:解析文件“
这就是我的文件夹结构的样子
我尝试使用不带 file_extractor 的 SimpleDirectoryReader 来查看问题是否出在 SimpleDirectoryReader 方法中,该方法在不使用该参数的情况下也有效。所以这个问题是 LlamaParse 引起的。
我最近在 LlamaParse 上遇到了同样的问题,这是我想到的唯一解决方案:
from llama_parse.base import ResultType, Language
parser = LlamaParse(result_type=ResultType.MD,language=Language.ENGLISH)
pdf_data = parser.load_data('{full_address}/app/data/Introduction-to-Insects.pdf')
此外,只要没有子目录,你就不需要
recursive=True
。