large-data 相关问题

大数据是难以处理和管理的数据,因为其大小通常超出用于执行分析的软件的限制。

在 IDLE 中,限制 pprint 调用显示的行数的最简单方法是什么?

我正在Python中使用大型嵌套字典,并且想在IDLE中快速检查它们的结构。 pprint 模块很好地显示了这个结构,但由于 ...

回答 1 投票 0

如何在不将字典加载到内存的情况下写入Python字典?

我有一个大表,我想将其转换为Python字典,但我不想将所有数据加载到内存中。 是否可以在不构建对象的情况下主动写入pickle转储

回答 1 投票 0

当您需要进行非常大的洗牌时,火花会中断

我正在处理 1 TB 的数据,现在我需要加入两个较小的数据帧,我不知道大小,但它超过 200 GB,并且出现以下错误。 断裂发生在...

回答 1 投票 0

有没有办法优化以下Python 3代码块?

#“List”是一个空的Pandas DataFrame,与“Tab_B”DataFrame的长度相同,将在下面的代码中填充。创建后,我将其作为新的附加到“Tab_B”...

回答 1 投票 0

如何从 700MB 的 json 文件中列出 Powershell 中的所有键

我试过了 $obj = [System.IO.File]::ReadLines((Convert-Path -LiteralPath names.json)) |从 Json 转换 $键= @() foreach ($obj.GetEnumerator() 中的 $key) { $keys += $key.Key } 写输出...

回答 1 投票 0

apache airflow 可以处理大约 50TB 数据的 ETL 过程吗? [已关闭]

我的数据库中有大约 50TB 的数据,需要从源数据库中提取这些数据并将其加载到下游系统中。此数据源是本地 RDBMS。我想使用 Ap...

回答 1 投票 0

如何在不重新启动整个进程的情况下删除 SQL Server 事务复制错误。我们大约有 10 亿

我们在大约 40 个表上设置了事务复制。除了大桌子之外,这对于小桌子来说效果很好。 我们的表中有大约 10 亿行,复制需要很长时间。

回答 1 投票 0

apache airflow 可以处理 TB 级数据(约 50 TB)的 ETL 过程吗?

我的数据库中有大约 50TB 的数据需要经过 ETL 过程。这些数据位于本地数据库系统中。为此,我计划使用 Apache Airflow 进行提取,

回答 1 投票 0

在 pytorch 中在非常大的稀疏矩阵上训练神经网络

我有一个包含大约 7400 万个观察值的数据集。每个观察结果都由约 1,000 个特征表示,并用最多约 3,200 个二元类进行标记。大多数个人观察结果都是实验室...

回答 1 投票 0

如何在 C# 中高效处理大型 JSON 数据?

我正在开发一个项目,需要在 C# 中处理和操作大型 JSON 数据集。但是,在处理包含数千条记录的文件时,我遇到了性能问题。什么是...

回答 1 投票 0

python pprint打印大数据有什么限制吗?

抱歉,如果我的英语不好,我的母语是韩语。 我试图将一个大列表打印到一个文本文件中,其大小类似于 len(repr(lst)) == 64xxx。 但是当我尝试一些东西时我...

回答 2 投票 0

从非常大的 CSV 计算粗略统计数据的最佳方法

我有一些 CSV 格式的数据(160 亿行,170 列)。 我可以使用 cut 提取每一列,并使用 pd.load_csv() 将文件中的“仅”一列加载到 Pandas 中,但这很痛苦......

回答 1 投票 0

python flet 中的高效数据表

我正在sqlite3和flet模块的帮助下用python开发一个图书馆管理系统。我使用了 DataTable 控件,如下所示: 类 BooksStatusControl(ft.UserControl): def __i...

回答 1 投票 0

使用 PDL - Perl 进行大型矩阵乘法

我需要通过SQL生成(40000 x 20000)矩阵并像A'A一样执行矩阵运算。然后我需要获取特征值和特征向量。 你能建议我用 Perl 实现这个的方法吗? (妈...

回答 3 投票 0

如何在 Cython 中将大型 malloc 数组返回或保存为 Python 对象?

我想使用 Cython 从模型创建大量模拟样本,稍后需要使用 Python 进行分析。我的模拟脚本运行一次的结果应该是 10000 x 10000 arr...

回答 1 投票 0

PHP - 从目录读取大量文件

我有一个包含大量图片的文件夹(至少10000个文件),我需要使用PHP获取所有这些文件的名称。 问题是当我使用 scandir() 时出现有关内存限制的错误。 另外,我尝试...

回答 2 投票 0

为什么malloc这么大的内存会出现访问内存错误?

正如你所看到的,当我运行它时,我遇到了内存访问错误。但是如果 我将malloc_size更改为100,它可以工作。如何在不更改 malloc_size 的情况下修复它。 int malloc_size = 900000; 浮动* ptr = (

回答 1 投票 0

如何通过从 R 中的 dfs 列表的每个 df 中提取列来创建 df?

我有很多像 split_plot_data2 这样的数据框列表,我想制作一个单独的单个数据框,其中第 3 列和第 2 列将在那里。第 3 列对所有人来说都是通用的,第 2 列将单独广告...

回答 1 投票 0

将数百万行从 Power BI 桌面导出到 CSV

有没有办法将 Power BI 桌面中的数百万行导出到 CSV 文件中?限制是: 无需复制和粘贴(PC 内存耗尽) 无法使用Power query Python脚本(公司电脑,...

回答 1 投票 0

如何解决django加载大量数据的问题?

我正在尝试为我的工作项目编写一个像 IMDb 这样的应用程序。在这个应用程序中,我需要在 MySQL 数据库中存储 8700 部 IMDB 电影以及大约 40k 名导演和演员, 当我试图 pos...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.