bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

这是我在 Druid 的 Web GUI 中运行的 Apache Druid 查询：选择 * 来自我的表哪里 __time >= '2023-10-19T09:29:58.613Z' 和__时间<= '2023-10-19T09:30:13.613Z' and my_string_field...

sql indexing time bigdata druid

回答 1 投票 0

Mongodb Spark Connector 调用 o67.showString 时出错

我使用下面的Python代码从Spark中的“MongoDB”读取数据并将其转换为DataFrame：从 pyspark.sql 导入 SparkSession # 初始化 Spark 会话火花 = SparkSession.b...

apache-spark hadoop pyspark bigdata

回答 1 投票 0

根据相同的交易编号制作列表

我们有一个包含不同交易的大数据框，其中一列是交易号（rq_id）。我想将所有具有相同交易编号的列放在一个列表中，如何...

list bigdata

回答 1 投票 0

Spark 执行器空闲超时

我有一个 EMR 集群，在其中运行带有 Spark 动态分配的 pyspark 作业。 Spark.dynamicAllocation.enabled=true 下面是集群的配置 1 个节点 128GB 内存 10核核心节点自动缩放...

apache-spark pyspark bigdata amazon-emr

回答 1 投票 0

CDAP 执行增删改查查询

我们可以在源读取文件中的每条记录并在接收器中对每条记录执行单独的 mysql 增删改查（例如：更新/删除）查询吗？感谢和问候，阿贾伊·巴布·马古鲁里。

bigdata data-lake cdap

回答 1 投票 0

如何列出独特的价值观并将其分组

我试图列出与另一列中的组相对应的唯一值。在本例中，我试图列出与我的

r bigdata

回答 1 投票 0

Spark：作业卡在 100 个任务中的最后 2 个任务上

我是 Spark 新手，我必须支持我们顾问编写的应用程序。我阅读并观看了大量有关 Spark 的信息，但我仍然在努力解决这些小细节......

apache-spark bigdata

回答 1 投票 0

Spark为何频繁增删执行器？

我有一个spark作业，最近这个作业执行得很慢，主要是执行器的频繁添加和删除。我认为有两个问题需要优化。菲...

apache-spark apache-spark-sql bigdata

回答 1 投票 0

为什么火花频繁增大而拆除执行器？

我有一个spark作业，最近这个作业执行得很慢，主要是执行器的频繁添加和删除。我认为有两个问题需要优化。菲...

apache-spark apache-spark-sql bigdata

回答 1 投票 0

MySQL 5秒插入大数据

技术栈：express + typeorm + mysql 我正在寻找此任务的解决方案：我有 csv 文件（100000 多行），每行都包含一些数据，例如：评论者、评论、电子邮件、评级、员工，

javascript mysql typescript express bigdata

回答 1 投票 0

比较非常大的数据帧

我正在尝试比较两个非常大的数据帧，每个数据帧在 Spark 中都有大约 10 PB 的数据。即使增加内存配置后，执行也会抛出内存不足问题。

apache-spark bigdata data-comparison

回答 1 投票 0

如何过滤掉方形二进制信号中的无效模式？

我正在使用一个数据集，其中包含类似于下图所示的二进制信号。目标是开发一种数据清理功能，以消除不完整的方形图案......

python-3.x numpy scipy bigdata signal-processing

回答 2 投票 0

重命名 Hive 表中的列时，它会在部署之前删除该列先前数据的所有值

我们刚刚继续部署一个基于 Hive 的表。我们将列risk_old重命名为risk_new（重命名）。该表按周期分区。然而部署后，我们看到了一个奇怪的情况

hive bigdata oozie oozie-coordinator oozie-workflow

回答 1 投票 0

如何使用 SQLAlchemy 高效地将大型属性读取为 pandas DataFrame？

我正在开发一个项目，其中有一个大型数据集存储在关系数据库中，特别是包含历史股票价格的“PriceHistory”表。我还有一个“股票&q...

python pandas dataframe sqlalchemy bigdata

回答 1 投票 0

NumPy：3 字节、6 字节类型（又名 uint24、uint48）

NumPy 似乎缺乏对 3 字节和 6 字节类型（又名 uint24 和 uint48）的内置支持。我有一个使用这些类型的大型数据集，并希望将其提供给 numpy。我目前所做的（对于 uint24）：我...

python numpy bigdata

回答 3 投票 0

读取 csv 文件对数据进行排序然后将排序后的数据写入另一个 csv 的最快方法是什么

我有一个庞大的数据集~600Gb，由多个 csv 文件组成。每个 csv 文件包含 130 万 x 17 组数据。看起来像这样指数持续时间 is_buy_order 已发布 location_id min_v...

python python-3.x pandas dataframe bigdata

回答 1 投票 0

如何在Pyspark中使用广播变量的过滤功能

当我尝试使用以下命令过滤广播值时不起作用。请帮助我采取正确的方法从 pyspark.sql 导入 * Spark=SparkSession.builder.appName("广播

dataframe apache-spark pyspark bigdata

回答 1 投票 0

如何在不创建数据副本的情况下进行 pd.merge？

我正在尝试将两个数据框连接在一起，如下所示： df3 = pd.merge(df1,df2, how='内部', on='key') 其中 df1 和 df2 是具有数百万行的大型数据集。基本上我如何加入他们......

python pandas bigdata

回答 2 投票 0

(Spark Schedular) Spark 作业池中的公平和先进先出有什么区别？

我知道对于 Spark，我们可以将不同的池设置为公平或先进先出，并且行为可以不同。然而，在 fairscheduler.xml 中，我们还可以将单个池设置为 Fair 或 FIFO，我

apache-spark bigdata job-scheduling

回答 1 投票 0

星型模式（数据建模）仍然与使用 Databricks 的 Lake House 模式相关吗？

我对 Lake House 架构模式了解得越多，并关注 Databricks 的演示，我几乎看不到任何关于传统数据仓库中的维度建模的讨论（Kim...

apache-spark bigdata databricks azure-databricks databricks-sql

回答 3 投票 0

bigdata 相关问题

最新问题