bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

python pandas df.loc 函数是否受数据帧大小的限制?它适用于小索引,但不适用于大索引

我有一个相当大的 3D 地图作为数据框(rawDF:1392640 行 x 3 列(名为:“X”、“Y”、“Z”))。我想访问 Y 点并分析相应的 X-Z 轮廓。 我正在使用 pandas (pd) df.loc

回答 1 投票 0

使用 pandas to_sql 忽略写入数据库时的错误行

我有一个相当大的数据集需要上传到数据库(在我的例子中是Postgres)。如果我使用块大小为 5000 的标准 to_sql,则会出现一些坏行,因为某些数据已损坏...

回答 1 投票 0

从 AMFI 网站提取每日共同基金资产净值数据并将其存储在 MongoDB 中

我想从AMFI网站下载所有方案的每日NAV(资产净值)并将其全部存储在MongoDB中。但使用我当前的代码,下载和pus花费的时间太长了近5天......

回答 1 投票 0

如何在不将字典加载到内存的情况下写入Python字典?

我有一个大表,我想将其转换为Python字典,但我不想将所有数据加载到内存中。 是否可以在不构建对象的情况下主动写入pickle转储

回答 1 投票 0

Azure databricks 自动加载器 Spark Streaming 无法读取输入文件

我已经使用自动加载器功能设置了流作业,输入位于 azure adls gen2 中,采用 parquet 格式。下面是代码。 df = Spark.readStream.format("cloudFiles")\ .选择...

回答 1 投票 0

在 Clickhouse 桌子上循环

如何循环clickhouse数据库中的表? Clickhouse 没有针对某些可迭代场景的循环和存储过程。 我想将 pandas queris 更改为 SQL,但表格上有 for 循环...

回答 1 投票 0

使用地理位置按距离排序来提高性能

我必须构建 posts 表的结构来处理大量数据(比方说,100 万行),特别是这两个字段: 纬度 经度 我想做的是优化...

回答 1 投票 0

有没有办法从 ASC 文件中逐行读取并在特定子字符串后检查它?

我有一个包含多行的文件,我想在数据框中进行转换以进行一些数据科学。 逐行阅读我发现了一个小代码片段,它似乎运行得不好。布...

回答 1 投票 0

Apache Nifi:从 REST 加载数据到 Druid

我正在使用 Apache NiFi。 从 REST API 向 Druid 加载数据的正确方法是什么?

回答 3 投票 0

如何(高效)查询 Apache Druid 的 __time 毫秒精度?

这是我在 Druid 的 Web GUI 中运行的 Apache Druid 查询: 选择 * 来自我的表 哪里 __time >= '2023-10-19T09:29:58.613Z' 和__时间<= '2023-10-19T09:30:13.613Z' and my_string_field...

回答 1 投票 0

Mongodb Spark Connector 调用 o67.showString 时出错

我使用下面的Python代码从Spark中的“MongoDB”读取数据并将其转换为DataFrame: 从 pyspark.sql 导入 SparkSession # 初始化 Spark 会话 火花 = SparkSession.b...

回答 1 投票 0

根据相同的交易编号制作列表

我们有一个包含不同交易的大数据框,其中一列是交易号(rq_id)。我想将所有具有相同交易编号的列放在一个列表中,如何...

回答 1 投票 0

Spark 执行器空闲超时

我有一个 EMR 集群,在其中运行带有 Spark 动态分配的 pyspark 作业。 Spark.dynamicAllocation.enabled=true 下面是集群的配置 1 个节点 128GB 内存 10核 核心节点 自动缩放...

回答 1 投票 0

CDAP 执行增删改查查询

我们可以在源读取文件中的每条记录并在接收器中对每条记录执行单独的 mysql 增删改查(例如:更新/删除)查询吗? 感谢和问候, 阿贾伊·巴布·马古鲁里。

回答 1 投票 0

如何列出独特的价值观并将其分组

我试图列出与另一列中的组相对应的唯一值。在本例中,我试图列出与我的

回答 1 投票 0

Spark:作业卡在 100 个任务中的最后 2 个任务上

我是 Spark 新手,我必须支持我们顾问编写的应用程序。我阅读并观看了大量有关 Spark 的信息,但我仍然在努力解决这些小细节......

回答 1 投票 0

Spark为何频繁增删执行器?

我有一个spark作业,最近这个作业执行得很慢,主要是执行器的频繁添加和删除。 我认为有两个问题需要优化。菲...

回答 1 投票 0

为什么火花频繁增大而拆除执行器?

我有一个spark作业,最近这个作业执行得很慢,主要是执行器的频繁添加和删除。 我认为有两个问题需要优化。菲...

回答 1 投票 0

MySQL 5秒插入大数据

技术栈:express + typeorm + mysql 我正在寻找此任务的解决方案: 我有 csv 文件(100000 多行),每行都包含一些数据,例如:评论者、评论、电子邮件、评级、员工,

回答 1 投票 0

比较非常大的数据帧

我正在尝试比较两个非常大的数据帧,每个数据帧在 Spark 中都有大约 10 PB 的数据。即使增加内存配置后,执行也会抛出内存不足问题。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.