我该如何减少Kaggle上熊猫计算的时间？

Question

我正在研究2019年数据科学碗。当我使用熊猫读取数据时，训练和测试数据需要很长时间，我想减少时间以使机器可以有效地运行分析。

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

import matplotlib.pyplot as plt
import seaborn as sns
import plotly as py
import plotly.express as px
import plotly.graph_objs as go
from plotly.subplots import make_subplots
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
init_notebook_mode(connected=True) 

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline
keep_cols = ['event_id', 'game_session', 'installation_id', 'event_count', 'event_code', 'title', 'game_time', 'type', 'world']
specs_df = pd.read_csv('/kaggle/input/data-science-bowl-2019/specs.csv')
train_df = pd.read_csv('/kaggle/input/data-science-bowl-2019/train.csv',usecols=keep_cols)
test_df = pd.read_csv('/kaggle/input/data-science-bowl-2019/test.csv')
train_labels_df = pd.read_csv('/kaggle/input/data-science-bowl-2019/train_labels.csv')

Answer 1

Pandas read_csv方法具有chunksize自变量，将产生一定数量的行作为迭代器。这对于非常大的数据集很有用，您可以在其中迭代地训练较小的数据子集。

我该如何减少Kaggle上熊猫计算的时间？

问题描述投票：-2回答：1

1个回答

最新问题

我该如何减少Kaggle上熊猫计算的时间？

问题描述 投票：-2回答：1

1个回答

最新问题

问题描述投票：-2回答：1