在云上训练大型数据集(例如:30GB及以上?

问题描述 投票:-1回答:1

我正在研究Kaggle项目,但遇到第一个障碍。数据集为30GB的图像。我希望能够在某种云解决方案上训练我的模型,我将其下载到虚拟机上,并放入Google Cloud Storage存储桶中,但是那里的任何数据似乎都占用了太多数据。我尝试过:

  • 在Colab中安装我的Google云端硬盘,然后从那里阅读(笔记本无法处理那么多数据)
  • 从GCS本身渲染(只能在以下位置下载和打开单个文件:时间,但这是我最近的时间)
  • 将整个内容移至Google DataLab并从中下载那里的GCS(缓慢到无法使用的程度,难以打开现在的笔记本)

这似乎是一个相当常见的ML用例,只是运行操作,可视化然后对云数据进行培训?我的假设是使用BigQuery之类的东西,因为它的图像数据不可行并且无法放入结构化数据集中。任何帮助,不胜感激。

tensorflow machine-learning image-processing google-cloud-platform bigdata
1个回答
0
投票

您可以使用gsutil cp gs://my-bucket-data/* .将数据从Google Cloud Storage存储桶下载到VM。您还可以查看旨在训练神经网络的Google Cloud AI Platform(以前称为Google Cloud MLEngine)。

© www.soinside.com 2019 - 2024. All rights reserved.