如何将网页文章加载到RAG LLM中进行嵌入

问题描述 投票:0回答:1

我观看了有关使用 LLM 设置 RAG(检索增强生成)的教程(https://youtu.be/2TJxpyO3ei4)(我使用了本地嵌入模型和本地查询模型)。我希望能够有一个数据文件夹,可以在其中读取 HTML 文件(或更佳的是链接)中的文档。我相信这个网站(https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/html/)会通过它,但我不知道如何将其添加到我已经存在的代码中加载文档。

这里是代码(对于 PDF 可以正常工作,现在我想添加 HTML 文件/链接): `

def load_documents():

   document_loader = PyPDFDirectoryLoader(DATA_PATH)
   return document_loader.load()

`

我尝试将 document_loader 更改为等于从 HTML 获取的内容,但 Pdfs 无法正常工作。我也不知道如何从网上获取链接。

我相当确定答案涉及到这个:loader = UnstructedHTMLLoader("example_data/fake-content.html")

langchain large-language-model ollama retrieval-augmented-generation
1个回答
0
投票

为了增强 RAG-Token 模型检索到的文档的相关性以及生成的答案的质量,请考虑在您的自定义知识库上微调检索器,调整检索参数,并确保您的知识库包含高质量的相关信息。此外,优化您的查询措辞并根据检索到的文档验证生成的答案的准确性。

© www.soinside.com 2019 - 2024. All rights reserved.