大家好,
我正在尝试使用StellarGraph
软件包制作几何深度学习模型。使用较小的数据集,它可以很好地工作,但是不幸的是,它不能扩展到较大的数据集。有关机器,环境,使用的数据和由此产生的错误的信息,如下所示。
机器规格:
环境:
使用的数据(从StellarGraph
获取的大小):
模块:
sys.getsizeof()
networkx 2.3
numpy 1.15.4
pandas 0.25.3
scipy 1.1.0
scikit-learn 0.21.3
stellargraph 0.8.2
我的目的是基于从静止状态功能MRI获得的邻接矩阵,创建一种几何深度学习,以对主题进行分类。邻接矩阵假设有55个感兴趣的区域,因此所有受试者的矩阵为55x55。在构建深度学习模型时,我使用了tensorflow 1.14.0
中的频谱图卷积网络模型,该模型以图对象和节点特征为输入。我根据稀疏块对角线矩阵创建了图形对象,该对角线矩阵是通过合并所有主题的邻接矩阵而获得的。节点特征是每个节点的特征(1个节点具有5个特征值),构造成密集块对角矩阵。
[以前,我使用总体样本的子集(大约170个)来建立模型。它运行得很完美,我想我可以使用更大的数据集来做同样的事情。不幸的是,使用相同的代码注册StellarGraph
对象时得到了MemoryError
。代码和错误在以下部分中介绍。
StellarGraph
由于机密性原因,我不提供# Data parsing with scipy.io as sio and pandas as pd
data = sio.mmread('_data/sparse.mtx')
feature = sio.mmread('_data/sparse-feature.mtx')
feature = pd.DataFrame.sparse.from_spmatrix(feature)
# Create graph object using networkx as nx
g = nx.from_scipy_sparse_matrix(data)
# Create StellarGraph object and its generator
gs = StellarGraph(g, node_features=feature) # MemoryError
generator = FullBatchNodeGenerator(gs)
和sparse.mtx
文件,但我希望先前对数据形状和大小的描述可以帮助您理解其结构,对此我感到抱歉。使用上面的代码,python给了我以下错误:
sparse-feature.mtx
[在监视内存消耗的同时,我观察到RAM仅使用了其总容量的55%,而根本没有使用交换。在运行代码时,我仅在运行>>> gs = StellarGraph(g, node_features=feature) # MemoryError
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 786, in __init__
super().__init__(incoming_graph_data, **attr)
File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 381, in __init__
node_features, type_for_node, node_types, dtype
File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 216, in _convert_from_node_data
{node_type: data}, node_type_map, node_types, dtype
File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 182, in _convert_from_node_data
data_arr = arr.values.astype(dtype)
File "/home/lam/.local/lib/python3.6/site-packages/pandas/core/generic.py", line 5443, in values
return self._data.as_array(transpose=self._AXIS_REVERSED)
File "/home/lam/.local/lib/python3.6/site-packages/pandas/core/internals/managers.py", line 822, in as_array
arr = mgr._interleave()
File "/home/lam/.local/lib/python3.6/site-packages/pandas/core/internals/managers.py", line 840, in _interleave
result = np.empty(self.shape, dtype=dtype)
MemoryError
,tmux
和vim
会话的情况下仅使用TTY + top
。此外,我还确保在后台没有其他占用内存的进程在运行。因此,我确定内存瓶颈很可能是由python
引起的。
为了利用内存消耗,我尝试使用python
来管理密集的dask
数据帧。不幸的是,feature
函数只能将pandas数组,pandas数据框,字典,元组或其他可迭代对象作为其输入。
[StellarGraph
以外,我也尝试使用稀疏矩阵(因为几乎80%的数据集都是零值)。但是,它给了我dask
,因为TypeError
不能将稀疏矩阵作为StellarGraph
。
我还阅读了一些管理大型数据集的解决方案,(大多数)建议将数据迭代地解析为python会话。但是,在这种方法的node_features
中,我找不到任何文档。
另一个选择是使用硬件更好的计算机,很遗憾,由于资金有限,我不能这样做。我是一名学生,目前买不起更好的机器。
StellarGraph
数据集的较小块。我设法采用了该解决方案,但模型的准确性确实很差(50%ish%)。feature
仅使用总RAM的55%而没有动态交换分配?python
对象时如何处理MemoryError
?Python运行正常。这是由StellarGraph引起的实现问题。
我认为到目前为止,StellarGraph不支持巨大的矩阵。
StellarGraph
从代码的开头到此处,所有数据都存储为稀疏数组,这不会占用太多内存。在这里,arr应该是一个带有pandas.SparseArray列的DataFrame。这行代码将数据结构转换为普通的numpy数组,这会导致内存使用崩溃。
File "/home/lam/.local/lib/python3.6/site-packages/stellargraph/core/graph.py", line 182, in _convert_from_node_data
data_arr = arr.values.astype(dtype)
这里一个空的numpy数组实际上需要17 G内存。我可以在16 G计算机上初始化3个类似的数组。然后,如果尝试获取大于3的内存,则会出现内存错误。而且我无法初始化158,950 x 158,950 numpy数组。