我正在从 langchain.document_loaders 导入 UnstructedPDFLoader 并尝试使用以下命令加载 pdf 文件。
from langchain.document_loaders import UnstructuredPDFLoader
loader = UnstructuredPDFLoader("./xx.pdf")
data = loader.load()
出现以下错误:
ImportError: cannot import name 'open_filename' from 'pdfminer.utils (C:\Users\<username>\AppData\Roaming\Python\Python311\site-packages\pdfminer\utils.py).
尝试了一些关于类似主题的解决方案,但没有成功。
loader.load() 应该已加载文件且没有任何错误。尝试安装/卸载 pdfminer 和 pdfminer.six 组合,但没有解决问题
我正在使用
langchain-community==0.2.12
版本
from langchain_community.document_loaders import PyPDFLoader, TextLoader, Docx2txtLoader
# load PDF documents
loader = DirectoryLoader(saved_file_dir, glob='./*.pdf', loader_cls=PyPDFLoader)
loader.load()
# load text files
loader = DirectoryLoader(saved_file_dir, glob="**/*.txt", use_multithreading=True, loader_cls=TextLoader)
# load docx files
loader = Docx2txtLoader(file_path)