直接下载到GCS存储桶而不是本地目录

问题描述 投票:0回答:1

问题:

在废弃动态网站时,我想下载到我的谷歌云存储桶而不是本地目录,因为我需要稍后将其移动到GCS存储桶以进一步处理,以避免传输文件的时间间隔,当我搜索如何将文件直接下载到 GCS 存储桶(同时通过 selenium 进行报废),我得到了 - Selenium 不支持直接下载到云存储路径。

示例:

假设您正在运行网络抓取工具从动态网站下载大量文件。这些文件需要使用 Google Cloud Platform (GCP) 上托管的基于云的工具和服务进一步处理。

目前,工作流程包括将文件下载到本地目录,然后将其上传到 Google Cloud Storage (GCS) 存储桶。这个两步过程会带来延迟并增加复杂性,特别是在本地存储有限或文件很大的情况下。

通过建议的直接下载到 GCS 存储桶的功能,您可以简化此工作流程:

  1. 使用 Selenium 设置网络抓取工具。

  2. 将下载目标配置为直接指向您的 GCS 存储桶。

  3. 运行你的刮刀。文件将直接下载到 GCS 存储桶,无需本地存储。

  4. 使用 GCP 上提供的基于云的工具和服务立即处理文件。

这将节省时间,减少对中间本地存储的需求,并简化整个数据处理管道。对于涉及大型数据集、有限的本地存储或需要快速处理的高频抓取任务的场景尤其有利。

期望:

文件应直接下载到GCS存储桶而不是本地目录。

python selenium-webdriver web-scraping google-cloud-platform google-cloud-storage
1个回答
0
投票

查看 GCSFuse:https://cloud.google.com/storage/docs/gcs-fuse 将存储桶挂载为 Linux 目录,并且无需更改代码,它就可以工作!

© www.soinside.com 2019 - 2024. All rights reserved.