bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

缺失数据的随机森林建模:寻求不需要插补或数据删除的包或方法

我有一个包含多个变量的数据集,其中包含缺失值,并且我不喜欢估算或丢弃它们。我有兴趣在处理错误时将随机森林模型拟合到这些数据......

回答 1 投票 0

flink-cdc 将我的所有数据从数据库流式传输到数据湖后,是否有更好的方法来检查数据丢失和不匹配的数据?

我有一个包含10TB数据的mysql数据库,我已经通过flink-cdc使用iceberg表格式将所有数据流式传输到s3。 我想检查是否有数据丢失,或者是否有不匹配...

回答 1 投票 0

在 R 中连接 Arrow 表,不会溢出内存或超过 Acero 的“关键数据字节”限制

我正在使用 R 和 Apache Arrow 处理大数据。我的数据分为两个数据集,称它们为: vals:一组经过 hive 分区的 parquet,每行包含一个 ID(长字符串)和数百个

回答 1 投票 0

PySpark - 如何对特定列执行操作?

我正在尝试对 df.summary() 数据帧执行舍入函数,不包括摘要列。到目前为止,我已经尝试使用 select() 和理解列表,例如 代码 df2 = df.select(*[圆形(列...

回答 1 投票 0

使用to_datetime转换大型CSV数据库中的混合日期格式时出现转换错误

我有一个大型 csv 合约数据库(2500 万行,大约 7 GB)。我需要过滤掉过期的合同,以减少进一步计算的大小。到期日期数组包含...

回答 1 投票 0

ЕPostgreSQL大表并行读取的高效方法

考虑这样一种情况:有一个非常大的表(高达几个 TB),并且由于某种原因应用程序想要完整扫描该表。应用程序上都有多个 CPU 核心...

回答 1 投票 0

使用 AWS S3 大型公共数据集

AWS 有多个可用的公共“大数据”数据集。有些数据免费托管在 EBS 上,而其他数据(例如 NASA NEX 气候数据)则托管在 S3 上。我发现了更多关于如何使用这些的讨论

回答 2 投票 0

我可以克隆 Gathr 中的现有管道吗?

我正在 Gathr 中创建一个管道,以使用多个处理器将数据从 JDBC 传输到 Kafka。现在我想复制现有的管道并在其间添加更多处理器。聚集吗

回答 1 投票 0

第一个列表中的每个对象根据属性值相等的条件与第二个列表中的对象匹配

想象一下我们的房屋数量有限。每个房子都有一个号码。每栋房子里住着一男一女。 我们为代表人员提供以下类别: 类人: def __init__(s...

回答 1 投票 0

需要比 MMDS 更好的解释 MapReduce 的通信成本模型

我正在浏览 MMDS 书籍,该书有一个同名的在线 MOOC。我无法理解主题 2.5 中提到的通信成本模型和连接操作计算,并且

回答 1 投票 0

从 JQ 输出 JSON 时包含任何对象的路径

我希望能够通过指定通配符查找从巨大(100GB+)JSON 文件中提取特定的 JSON 对象。 (虽然我的最终目标是拥有一个用于查找的路径类型字符串,但我非常乐意

回答 1 投票 0

python pandas df.loc 函数是否受数据帧大小的限制?它适用于小索引,但不适用于大索引

我有一个相当大的 3D 地图作为数据框(rawDF:1392640 行 x 3 列(名为:“X”、“Y”、“Z”))。我想访问 Y 点并分析相应的 X-Z 轮廓。 我正在使用 pandas (pd) df.loc

回答 1 投票 0

使用 pandas to_sql 忽略写入数据库时的错误行

我有一个相当大的数据集需要上传到数据库(在我的例子中是Postgres)。如果我使用块大小为 5000 的标准 to_sql,则会出现一些坏行,因为某些数据已损坏...

回答 1 投票 0

从 AMFI 网站提取每日共同基金资产净值数据并将其存储在 MongoDB 中

我想从AMFI网站下载所有方案的每日NAV(资产净值)并将其全部存储在MongoDB中。但使用我当前的代码,下载和pus花费的时间太长了近5天......

回答 1 投票 0

如何在不将字典加载到内存的情况下写入Python字典?

我有一个大表,我想将其转换为Python字典,但我不想将所有数据加载到内存中。 是否可以在不构建对象的情况下主动写入pickle转储

回答 1 投票 0

Azure databricks 自动加载器 Spark Streaming 无法读取输入文件

我已经使用自动加载器功能设置了流作业,输入位于 azure adls gen2 中,采用 parquet 格式。下面是代码。 df = Spark.readStream.format("cloudFiles")\ .选择...

回答 1 投票 0

在 Clickhouse 桌子上循环

如何循环clickhouse数据库中的表? Clickhouse 没有针对某些可迭代场景的循环和存储过程。 我想将 pandas queris 更改为 SQL,但表格上有 for 循环...

回答 1 投票 0

使用地理位置按距离排序来提高性能

我必须构建 posts 表的结构来处理大量数据(比方说,100 万行),特别是这两个字段: 纬度 经度 我想做的是优化...

回答 1 投票 0

有没有办法从 ASC 文件中逐行读取并在特定子字符串后检查它?

我有一个包含多行的文件,我想在数据框中进行转换以进行一些数据科学。 逐行阅读我发现了一个小代码片段,它似乎运行得不好。布...

回答 1 投票 0

Apache Nifi:从 REST 加载数据到 Druid

我正在使用 Apache NiFi。 从 REST API 向 Druid 加载数据的正确方法是什么?

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.