在废弃动态网站时,我想下载到我的谷歌云存储桶而不是本地目录,因为我需要稍后将其移动到GCS存储桶以进一步处理,以避免传输文件的时间间隔,当我搜索如何将文件直接下载到 GCS 存储桶(同时通过 selenium 进行报废),我得到了 - Selenium 不支持直接下载到云存储路径。
假设您正在运行网络抓取工具从动态网站下载大量文件。这些文件需要使用 Google Cloud Platform (GCP) 上托管的基于云的工具和服务进一步处理。
目前,工作流程包括将文件下载到本地目录,然后将其上传到 Google Cloud Storage (GCS) 存储桶。这个两步过程会带来延迟并增加复杂性,特别是在本地存储有限或文件很大的情况下。
通过建议的直接下载到 GCS 存储桶的功能,您可以简化此工作流程:
使用 Selenium 设置网络抓取工具。
将下载目标配置为直接指向您的 GCS 存储桶。
运行你的刮刀。文件将直接下载到 GCS 存储桶,无需本地存储。
使用 GCP 上提供的基于云的工具和服务立即处理文件。
这将节省时间,减少对中间本地存储的需求,并简化整个数据处理管道。对于涉及大型数据集、有限的本地存储或需要快速处理的高频抓取任务的场景尤其有利。
期望:
文件应直接下载到GCS存储桶而不是本地目录。
查看 GCSFuse:https://cloud.google.com/storage/docs/gcs-fuse 将存储桶挂载为 Linux 目录,并且无需更改代码,它就可以工作!