我对无法将数据存储在本地的项目比较陌生,因此想知道以下选项之间的权衡。在描述选项之前,我将简要描述情况。我正在使用Google Bigquery数据集之一(250-500GB),并且想对数据集进行大量操作。目前可能机器学习不多。
选项1)(更熟悉),将数据传输到AWS并使用sagemaker创建python笔记本和python脚本的混合。
选项2)保留在Google上并使用datalab。
选项3)购买一个外部硬盘驱动器,然后在本地下载数据。担心计算机能够处理处理负载。
我目前更倾向于选项1,因为我对此比较熟悉。
想知道是否有人有强烈的感情。
使用AI平台笔记本并直接调用bigquery。这是一个教程:
https://codelabs.developers.google.com/codelabs/scd-babyweight1/index.html