我对 AWS Bedrock 知识库、网络爬虫作为数据源有疑问,我不小心输入了 Wikipedia 的 2 个 URL(例如,“https://en.wikipedia.org/wiki/article1 和第二个 URL:”https ://en.wikipedia.org/wiki/article2") 主机和范围设置为 HOSTS_ONLY 我假设爬虫正在尝试爬行整个维基百科,但由于它不是 Kendra 或 Lambda,而是在基岩中设置的数据源,我无法停止摄取作业,状态设置为“正在启动”,并且我成功删除了向量索引(打开搜索)以触发失败。
在这种情况下我还能做什么,工作仍在运行大约一个半小时。
任何帮助将不胜感激,谢谢。
我尝试删除 Opensearch 矢量索引,尝试搜索任何强制停止调用,但没有,我向 AWS 开了一张票,但没有答案。
我只是想知道如何停止同步作业,或者是否有人解释它是如何工作的,或者至少解释一下“正在启动”状态意味着什么,我是否要付费,以及估计是多少。
谁会遇到这种情况,我已经解决了这个问题,所以如果将来有人需要它,我会发布我是如何做到的:
在基岩中,如果您在知识库中选择网络爬虫作为数据源,则无法正常工作,因为一旦按下同步按钮,它就无法停止...
我所做的是删除矢量索引(在我的例子中是 Open Search Serverless 或简称 OSS)来尝试触发故障,几个小时后它确实失败了,但我遇到了另一个问题,数据源无法删除.
出现以下错误: “无法从 ID XXXXXXXXXX 的数据源的矢量存储中删除数据。请检查您的矢量存储配置和权限,然后重试您的请求。如果问题仍然存在,请考虑将数据源的 dataDeletionPolicy 更新为“保留”,然后重试您的请求。”
因此,如果您通过 UI 更改删除策略,它将不起作用(它会显示更改成功,但不会更改)
解决方案是通过 CLI 删除 按照这些文档操作:
您将需要获取数据源信息,因为它包含传递给更新数据源命令所需的“数据源配置”信息 由于向量摄取无法更改,我们也需要传递该向量,因此我们不会收到尝试更改它的错误
建议运行的 get 命令是:
aws bedrock-agent get-data-source --data-source-id <DATASOURCE_ID> --knowledge-base-id <KB_ID>
将 DATASOURCE_ID 和 KB_ID 替换为您的参数
您将看到需要使用的 2 个重要参数 “数据源配置”和“向量摄取配置”
复制每个对象下包含的json并将它们复制到本地文件中每个对象复制到不同的文件中 (例如,将数据源配置到 tmp.json 并将向量摄取配置到 tmp2.json,确保它们的格式正确并且没有 json 语法错误)
使用右上角 CLI 窗口中的操作 -> 上传文件将这 2 个文件上传到 cli 中
之后我们将运行更新数据源命令:
aws bedrock-agent update-data-source --data-source-id <DATASOURCE_ID> --knowledge-base-id <KB_ID> --data-source-configuration file://tmp.json --vector-ingestion-configuration file://tmp2.json --name <NAME_OF_DATA_SOURCE> --data-deletion-policy RETAIN
响应将是具有新配置的数据源,以确保它确实发生更改,再次运行 get-data-source 命令并查找
"dataDeletionPolicy : RETAIN"
而不是DELETE
您可以运行删除数据源命令,如下所示:
aws bedrock-agent delete-data-source --data-source-id <DATASOURCE_ID> --knowledge-base-id <KB_ID>
如果需要,您也可以删除知识库。
希望对AI男孩有所帮助