直接下载到GCS存储桶而不是本地目录

Question

在废弃动态网站时，我想下载到我的谷歌云存储桶而不是本地目录，因为我需要稍后将其移动到GCS存储桶以进一步处理，以避免传输文件的时间间隔，当我搜索如何将文件直接下载到 GCS 存储桶（同时通过 selenium 进行报废），我得到了 - Selenium 不支持直接下载到云存储路径。

假设您正在运行网络抓取工具从动态网站下载大量文件。这些文件需要使用 Google Cloud Platform (GCP) 上托管的基于云的工具和服务进一步处理。

目前，工作流程包括将文件下载到本地目录，然后将其上传到 Google Cloud Storage (GCS) 存储桶。这个两步过程会带来延迟并增加复杂性，特别是在本地存储有限或文件很大的情况下。

通过建议的直接下载到 GCS 存储桶的功能，您可以简化此工作流程：

这将节省时间，减少对中间本地存储的需求，并简化整个数据处理管道。对于涉及大型数据集、有限的本地存储或需要快速处理的高频抓取任务的场景尤其有利。

期望：

文件应直接下载到GCS存储桶而不是本地目录。

Answer 1

查看 GCSFuse：https://cloud.google.com/storage/docs/gcs-fuse 将存储桶挂载为 Linux 目录，并且无需更改代码，它就可以工作！