large-data 相关问题

大数据是难以处理和管理的数据,因为其大小通常超出用于执行分析的软件的限制。

Python 多处理 - 共享大型数据集

我正在尝试加速受 CPU 限制的 Python 脚本(在 Windows11 上)。 Python 中的威胁似乎无法在不同的 cpu(核心)上运行,因此我唯一的选择是多处理。 我有一本大词典...

回答 1 投票 0

如何使用{fmt}处理大数据

我开始使用 {fmt} 并编写了一个小程序来看看它如何处理大型容器。看起来 fmt::print() (最终将输出发送到 stdout)在内部首先比较...

回答 1 投票 0

在 r 中,通过两列高效匹配两个数据框,每行包含电子邮件列表

在R中,我有两个df,df1和df2。他们都有两个列,一个 ID 列和一个电子邮件列。电子邮件列都是列表列,其中每行都是电子邮件列表,或者您可以说 ID 与...

回答 1 投票 0

MS Excel 中的求和函数

[=IF(I74<=50000,"150",IF(I74<=100000,"200",IF(I74<=150000,"250",IF(I74<=200000,"300",IF(I74<=250000,"350",IF(I74<=300000,"40...

回答 1 投票 0

Python 多处理:当我在一个巨大的 pandas 数据帧上启动许多进程时,程序会卡住

我正在尝试使用Python的多处理库(pool_starmap)在同一Pandas DataFrame上并行执行同一任务的代码上获得执行时间,但使用不同的调用参数...

回答 2 投票 0

在Python中使用ijson将非常大(250GB+)的json文件转换为csv

我正在尝试将一个非常大(超过250GB)的json文件转换为csv; json 文件如下所示: { “建筑站点列表”:[ { “ID”:“00001” (还有 34 个

回答 1 投票 0

对大数据(~150MM+行)进行分组和分析的最快方法是什么?

我有大量历史电价数据集(151mm+)。有 18,065 个独立节点进行价格结算,每个节点每小时进行一次观测(8760 个/年)。 数据模式:节点 ID (int64)、日期时间 (

回答 1 投票 0

如何计算Hbase的基础设施成本

我正在尝试使用 AWS EMR 计算 Hbase 基础设施的成本,但无法找到用于计算 HBase 读取/存储/写入成本的文档。 我可以得到一些指导/帮助吗?

回答 2 投票 0

如何通过pandas过滤巨大的csv文件

我有一个巨大的csv文件,大小为10GB数据/历史记录_{待搜索的日期}.csv,该文件有超过27000个邮政编码。根据邮政编码,我必须过滤 csv 文件,然后每个过滤后的文件我...

回答 1 投票 0

内存高效的并行重复稀疏以及大数据集的后续矩阵相加

我正在尝试加速重复稀疏数据帧以及随后添加生成的矩阵。一些背景信息:我要重复稀疏的数据集非常大(abo...

回答 1 投票 0

Python 中应该如何处理非常大但高度对称的数组?

我正在尝试填充和存储一个包含约 1 万亿个条目的 NumPy 数组,并稍后检索数据。该数组有 ~50 个维度和 ~7 个索引,即它是 50 个维度的 7 阶张量 o...

回答 1 投票 0

大型基因数据集上的 Logistic Lasso,特别是通过 R 中的 Knockoff 包

这个问题可能处于 CrossValidated 和 StackOverflow 之间的一个恐怖谷中,因为我试图理解 R 包中函数的方法,在执行它们的上下文中......

回答 1 投票 0

尝试使用 ijson 传输我的(非常大的)json 文件 - 它的格式是否错误?

我正在尝试使用 python 中的 ijson 流式传输大型 json 文件。这是我第一次尝试这个。 我的代码现在非常简单: 将 open('file.json', 'rb') 作为 f: j = ijson.items(f, 'i...

回答 1 投票 0

如何在Python中高效处理大型数据集进行数据分析

我正在开发一个项目,涉及用Python分析大型数据集。但是,在处理这些大型数据集时,我遇到了性能问题和内存限制。有哪些

回答 1 投票 0

将行追加到文件

我是 R 新手。我正在尝试使用 R 中的现有数据向文件中添加(追加)新行。问题是我的数据大约有 30000 行和 13000 列。我已经尝试添加一行

回答 4 投票 0

如何计算 1 TB 及以上文件的哈希值?

所以,我有几个大约 1 TB 的系统备份映像文件, 我想快速计算它们每个的哈希值(最好是 SHA-1)。 一开始我尝试计算md5有...

回答 3 投票 0

循环遍历大范围/数组来操作数据

我在Excelsheet_1 A10:H50000中有一个数据范围。 我需要在 C 列中找到文本“40GP”的匹配项,如果找到匹配项,则需要使用更新的文本 va 复制当前行...

回答 3 投票 0

如何在超出内存容量的数据集中并排添加列?

我正在使用 Pandas 和 ArcticDB,发现应用library_options=LibraryOptions(dynamic_schema=True) 可以使用append 方法添加列。然而,结果并不如预期。 我...

回答 1 投票 0

如何使用 AJAX 和 Laravel 高效管理 Select2 中的大型数据集

我正在开发一个 Laravel 应用程序,该应用程序需要在 UI 中动态加载选择选项,可能会处理大型数据集。目标是实现自动完成功能,其中...

回答 1 投票 0

如何随机采样非常大的 pyArrow 数据集

我有一个来自我一直使用的huggingface框架的非常大的箭头数据集(181GB,30m行)。我想随机抽样并替换 100 行(20 次),但是环顾四周后,我无法...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.