深度学习中具有大数据帧的MemoryError

Question

序言

大家好，

我正在尝试使用StellarGraph软件包制作几何深度学习模型。使用较小的数据集，它可以很好地工作，但是不幸的是，它不能扩展到较大的数据集。有关机器，环境，使用的数据和由此产生的错误的信息，如下所示。

机器规格：

CPU：英特尔酷睿i5-8350U
RAM：8GB DDR4
SWAP：4 GB + 4 GB（在不同的SSD中分为两个交换文件）
SSD：250 GB + 250 GB（2280和2242 NVMe）

环境：

Linux 5.3.11_1 64位
Python 3.6.9

使用的数据（从StellarGraph获取的大小）：

稀疏块对角矩阵（形状：158,950 x 158,950；大小：56）
密集特征矩阵（形状：158,950 x 14,450；大小：9,537,152）

模块：

sys.getsizeof()
networkx 2.3
numpy 1.15.4
pandas 0.25.3
scipy 1.1.0
scikit-learn 0.21.3
stellargraph 0.8.2

问题描述

我的目的是基于从静止状态功能MRI获得的邻接矩阵，创建一种几何深度学习，以对主题进行分类。邻接矩阵假设有55个感兴趣的区域，因此所有受试者的矩阵为55x55。在构建深度学习模型时，我使用了tensorflow 1.14.0中的频谱图卷积网络模型，该模型以图对象和节点特征为输入。我根据稀疏块对角线矩阵创建了图形对象，该对角线矩阵是通过合并所有主题的邻接矩阵而获得的。节点特征是每个节点的特征（1个节点具有5个特征值），构造成密集块对角矩阵。

[以前，我使用总体样本的子集（大约170个）来建立模型。它运行得很完美，我想我可以使用更大的数据集来做同样的事情。不幸的是，使用相同的代码注册StellarGraph对象时得到了MemoryError。代码和错误在以下部分中介绍。

代码和错误

StellarGraph

由于机密性原因，我不提供# Data parsing with scipy.io as sio and pandas as pd data = sio.mmread('_data/sparse.mtx') feature = sio.mmread('_data/sparse-feature.mtx') feature = pd.DataFrame.sparse.from_spmatrix(feature) # Create graph object using networkx as nx g = nx.from_scipy_sparse_matrix(data) # Create StellarGraph object and its generator gs = StellarGraph(g, node_features=feature) # MemoryError generator = FullBatchNodeGenerator(gs)和sparse.mtx文件，但我希望先前对数据形状和大小的描述可以帮助您理解其结构，对此我感到抱歉。使用上面的代码，python给了我以下错误：

sparse-feature.mtx

[在监视内存消耗的同时，我观察到RAM仅使用了其总容量的55％，而根本没有使用交换。在运行代码时，我仅在运行>>> gs = StellarGraph(g, node_features=feature) # MemoryError Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 786, in __init__ super().__init__(incoming_graph_data, **attr) File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 381, in __init__ node_features, type_for_node, node_types, dtype File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 216, in _convert_from_node_data {node_type: data}, node_type_map, node_types, dtype File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 182, in _convert_from_node_data data_arr = arr.values.astype(dtype) File "/home/lam/.local/lib/python3.6/site-packages/pandas/core/generic.py", line 5443, in values return self._data.as_array(transpose=self._AXIS_REVERSED) File "/home/lam/.local/lib/python3.6/site-packages/pandas/core/internals/managers.py", line 822, in as_array arr = mgr._interleave() File "/home/lam/.local/lib/python3.6/site-packages/pandas/core/internals/managers.py", line 840, in _interleave result = np.empty(self.shape, dtype=dtype) MemoryError，tmux和vim会话的情况下仅使用TTY + top。此外，我还确保在后台没有其他占用内存的进程在运行。因此，我确定内存瓶颈很可能是由python引起的。

我尝试过的

为了利用内存消耗，我尝试使用python来管理密集的dask数据帧。不幸的是，feature函数只能将pandas数组，pandas数据框，字典，元组或其他可迭代对象作为其输入。

[StellarGraph以外，我也尝试使用稀疏矩阵（因为几乎80％的数据集都是零值）。但是，它给了我dask，因为TypeError不能将稀疏矩阵作为StellarGraph。

我还阅读了一些管理大型数据集的解决方案，（大多数）建议将数据迭代地解析为python会话。但是，在这种方法的node_features中，我找不到任何文档。

另一个选择是使用硬件更好的计算机，很遗憾，由于资金有限，我不能这样做。我是一名学生，目前买不起更好的机器。

潜在的解决方案

升级RAM。我将尝试从其他计算机上回收RAM，但当前的最大大小为16 GB。我不确定是否足够。
使用StellarGraph数据集的较小块。我设法采用了该解决方案，但模型的准确性确实很差（50％ish％）。

问题

为什么feature仅使用总RAM的55％而没有动态交换分配？
我应如何有效管理大型数据帧？
[创建python对象时如何处理MemoryError？
我实际上需要多少RAM？ 32GB足够了吗？

Answer 1

Python运行正常。这是由StellarGraph引起的实现问题。

我认为到目前为止，StellarGraph不支持巨大的矩阵。

StellarGraph

从代码的开头到此处，所有数据都存储为稀疏数组，这不会占用太多内存。在这里，arr应该是一个带有pandas.SparseArray列的DataFrame。这行代码将数据结构转换为普通的numpy数组，这会导致内存使用崩溃。

File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 182, in _convert_from_node_data
data_arr = arr.values.astype(dtype)

这里一个空的numpy数组实际上需要17 G内存。我可以在16 G计算机上初始化3个类似的数组。然后，如果尝试获取大于3的内存，则会出现内存错误。而且我无法初始化158,950 x 158,950 numpy数组。

深度学习中具有大数据帧的MemoryError

问题描述投票：0回答：1

序言

问题描述

代码和错误

我尝试过的

潜在的解决方案

问题

1个回答

最新问题

深度学习中具有大数据帧的MemoryError

问题描述 投票：0回答：1

序言

问题描述

代码和错误

我尝试过的

潜在的解决方案

问题

1个回答

最新问题

问题描述投票：0回答：1