large-data 相关问题

大数据是难以处理和管理的数据,因为其大小通常超出用于执行分析的软件的限制。

将较大的csv转换为用于sklearn的稀疏矩阵

我有一个以csv格式保存的〜30GB(〜1.7 GB压缩| 180K行x 32K列)矩阵。我想将此矩阵转换为稀疏格式,以便能够将完整的数据集加载到内存中,以用于...

回答 1 投票 0

使用熊猫比较不同块中的值

假设我在内存中有一个大文件,该文件是使用pandas中的chunksize加载的。现在,我必须将每个值与其相邻的值进行比较。我的问题是我似乎无法同时选择...

回答 1 投票 0

读取和写入Networkx图的有效方法

对于一个开源项目,我正在尝试使用NetworkX来查找图(称为状态转换图)的吸引者。事情是针对将近2 ** 33个循环,一个具有各种输入的函数...

回答 1 投票 0

大型数据集的分类模型

我想在n = 3000000和12列的数据集上实现分类模型。我有一个问题,因为下班后很慢,我什么也没收到,您是否对...

回答 1 投票 -1

使用分块从MySQL DB检索大数据并保存它们的数据框熊猫

我想从一个SQL数据库中检索大约1亿行30列数据到一个数据帧中,我可以根据某些要求对其进行排序和过滤。我只有2个Gig内存。一切...

回答 1 投票 0

是否可以在网格FS中使用mongoDB地理空间索引

我拥有一个超过16MB的大型geojson功能集。我希望将数据插入MongoDB,以便可以利用MongoDB提供的地理空间功能($ geoIntersects,$ ...

回答 1 投票 0

当向量的大小太大时,如何解决C ++中内存不足的问题?

#include #include int main(void){std :: vector vstr1(131,“ ...]] >

回答 1 投票 0

如何在群集上存储TB大小的C ++阵列

我想做一个巨大的仿真,需要大约1 TB的数据来描述一堆相互作用的粒子(每个粒子都有不同的相互作用)。是否可以将此数据存储在C ++数组中?我有...

回答 1 投票 0

H5py,将匹配的行从巨大的hdf5文件合并到较小的数据集

我有两个巨大的hdf5文件,每个文件都有一个ID索引,每个文件包含有关每个ID的不同信息。我已经读入一个小的蒙版数据集(数据),仅使用少数几个...

回答 1 投票 0

Excel VBA如何比较两个具有质量缺陷/错误的大型数据集中的值?

我在实习中活跃于分析化学领域,希望比较大型数据集(两列,最多15,000行)。其主要思想是,我有两列包含大量数据(...

回答 1 投票 0

X轴对于大型数据集不可见

我是python的新手,我试图在X轴上的日期和时间处绘制数据。数据是有关几天内数小时内的推文数量的信息。由于数据巨大,因此X ...

回答 1 投票 0

使用BLS数据集寻求更高效率的熊猫代码

正在寻找一种更有效的方法来为Kmeans分析准备数据。使用BLS(劳动统计局)并尝试学习Kmeans,我正在对数据进行第一次传递,并希望添加两个...

回答 1 投票 0

如何读取真正大的JSON文件,并使用node.js将文件的数据插入到MySQL数据库中?

我有一个很大的JSON文件(22GB)。我想读取该文件,然后使用node.js将文件的数据输入到MySql数据库中。我怎样才能做到这一点?这是我的数据库查询:var query = connection.query(“ ...

回答 2 投票 0


如何读取真正大的JSON文件,并使用node.js将文件的数据输入到MYSQL数据库中?

我有一个很大的JSON文件(22GB)。我想读取该文件,然后使用node.js将文件的数据输入到MySql数据库中。我怎样才能做到这一点?这是我的数据库查询:var query = connection.query(“ ...

回答 2 投票 0

排序和提取大数据时出现问题(yajra数据表)

我在同时应用列排序时从yajra数据表服务器端提取大数据时遇到问题。对于列排序,我在查询构建器中使用了get()。如果我避免使用并使用...

回答 1 投票 2

为(900个以上)节点创建边缘列表(在R中)

我在创建406351条边的边列表(在902个唯一节点中可能是两个节点的组合)时遇到问题。节点对应于医生,边缘对应于患者的数量...

回答 1 投票 1

为什么PDO :: PARAM_LOB导致允许的内存大小用尽错误?

我在这里几乎找不到关于幕后情况的信息。我正在使用Yii 1.1框架,但我认为这与此问题无关。基本上,我在用这个...

回答 1 投票 1

解析大型(10GB +)JSON文件的最佳方法

我想知道什么是最好的工具,IDE,用于解析存储为json文件的数据的编程语言。我尝试在python中使用pandas,在R中使用ff,它们都因内存问题而崩溃或...

回答 1 投票 0

有没有更简单的方法来合并DataFrame多个块中的describe()结果?

我正在处理大型csv文件。由于内存限制,由于无法将整个csv文件同时导入一个数据帧中,因此我正在使用块来处理数据。 df = pd.read_csv(...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.