large-data 相关问题

大数据是难以处理和管理的数据,因为其大小通常超出用于执行分析的软件的限制。

如何在内存有限的情况下在Python中高效地过滤和处理大型数据集?

我正在处理一个大型数据集(大约 100 万条记录),用 Python 表示为字典列表。每个字典都有多个字段,我需要根据几个条件过滤数据...

回答 1 投票 0

如何将我的频率表制作成 R 中的热图

我已将大型数据集转换为双向频率表,并希望将其呈现在热图中,其中颜色代表频率。我已经成功制作了热图,但它只能...

回答 1 投票 0

同时分析数据集的多列

我使用一个真正的大型数据集,很难单独查看所有列。 此时我只想统计所提供信息的频率。 假设我有一个数据...

回答 1 投票 0

在Python中过滤大型字典列表时如何减少内存使用?”

我正在开发一个处理大量字典列表(数百万条记录)的Python脚本。我的目标是根据条件过滤列表(例如,保留某个键为 gr 的记录...

回答 1 投票 0

R 中 lag() 的奇怪行为

我正在使用代码从较大的数据集中过滤出较小的数据集。我选择 24 个月以下的儿童和另一个变量 (b9),该变量表示孩子是否与母亲住在一起。

回答 1 投票 0

在 Python 中对大型数据集进行排序最有效的方法是什么?

我有一个大型数据集(数百万个条目)需要排序。在 Python 中对此类数据集进行排序的最佳实践或最有效的方法是什么?具体来说: Python内置的吗...

回答 1 投票 0

在更短的时间内通过一次操作在 Firebase 中高效存储 250 万条记录[重复]

我正在开发一个项目,需要在 Firebase Firestore 中存储大型数据集(大约 250 万条记录)。我希望通过一次操作或尽可能高效地实现这一目标

回答 1 投票 0

一次操作即可在 Firebase 中高效存储 250 万条记录

我正在开发一个项目,需要在 Firebase Firestore 中存储大型数据集(大约 250 万条记录)。我希望通过一次操作或尽可能高效地实现这一目标

回答 1 投票 0

分页查询的 BRIN 索引

我有一个很大的静态表。 对于“大”,我的意思是 1.000.000.000 行。 “静态”意味着不允许插入/更新/删除。只选择 我总是会用“

回答 1 投票 0

pivot_longer 具有非常大的 data.frame,内存高效的方法

我有一个包含 1100 万行的医院数据的 data.frame。 列:ID(字符)、结果 (1|0)、20x ICD-10 代码(字符)。 行数:1060 万行 我希望使数据整洁以允许诊断建模

回答 1 投票 0

如何在 R 中对向量应用条件

我需要特定类型的替换,事实上,我想在给定特定条件(对于

回答 1 投票 0

如何使用函数 preg_replace 来处理 $patterns 和 $replacements 数组中的大量(1000000)个值?

亲爱的程序员们大家好!我对函数 preg_replace() 的速度有疑问。 当我的 $patterns 和 $replacements 数组中的值(单词)很少时,问题不在于...

回答 1 投票 0

存储 HTML 画布图像的最小方式是什么?

我正在尝试制作一个像素艺术动画师,您可以在其中制作像素艺术,但也可以对其进行动画处理,但问题是我希望画布占据我的大部分屏幕,只有一点点空间......

回答 1 投票 0

存储 html 画布图像的最小方式是什么

我正在尝试制作一个像素艺术动画师,您可以在其中制作像素艺术,但也可以对其进行动画处理,但问题是我希望画布占据我的大部分屏幕,只有一点点空间......

回答 1 投票 0

从快速增长的mysql表拆分为多个表

我们正在使用具有 140cr 行的 Mysql EntityMapping 表,每个实体映射有 1 或 200 万个联系人行,它在过去 5 个月中不断增长。 该表包含PK、entityId(索引列)、联系人...

回答 1 投票 0

使用 DevxGrid 时处理大型数据库表的最佳解决方案是什么?

我想从asp.net网格转换为devxgrid控件,但我无法确定哪种方法是处理大表的最佳方法(我的意思是SQL中数据行超过1000000的表...

回答 1 投票 0

如何最大限度地减少所创建的 R 代码的不可接受的长运行时间

有一段代码包含三个 for 循环,运行的数据包含足够的缺失值。主要问题是运行时间长得令人无法接受,似乎至少需要一个多月的时间......

回答 2 投票 0

K 表示运行时间较长

我有一个包含 300 万条记录、15 列的数据集,我用它来进行客户细分。 我使用过 KMeans 和 MiniBatchKMeans,但它甚至在 45 小时后仍在运行(没有运行它们......

回答 1 投票 0

如何有效过滤和聚合 Pandas DataFrame 中具有多个条件的数据?

我有一个大型 Pandas DataFrame,其中包含多个列,包括类别、子类别、值和日期。我需要根据多个条件过滤此 DataFrame,然后聚合过滤后的

回答 1 投票 0

使用 dask 高效扩展 scikit-learn 管道以处理大型数据集

我正在使用 scikit-learn 开发这个 ML 项目,并面临一个大数据集不适合内存的问题。我听说 Dask 可用于扩展大型数据集的管道......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.