bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何过滤掉方形二进制信号中的无效模式?

我正在使用一个数据集,其中包含类似于下图所示的二进制信号。目标是开发一种数据清理功能,以消除不完整的方形图案......

回答 2 投票 0

重命名 Hive 表中的列时,它会在部署之前删除该列先前数据的所有值

我们刚刚继续部署一个基于 Hive 的表。我们将列risk_old重命名为risk_new(重命名)。该表按周期分区。然而部署后,我们看到了一个奇怪的情况

回答 1 投票 0

如何使用 SQLAlchemy 高效地将大型属性读取为 pandas DataFrame?

我正在开发一个项目,其中有一个大型数据集存储在关系数据库中,特别是包含历史股票价格的“PriceHistory”表。我还有一个“股票&q...

回答 1 投票 0

NumPy:3 字节、6 字节类型(又名 uint24、uint48)

NumPy 似乎缺乏对 3 字节和 6 字节类型(又名 uint24 和 uint48)的内置支持。 我有一个使用这些类型的大型数据集,并希望将其提供给 numpy。我目前所做的(对于 uint24): 我...

回答 3 投票 0

读取 csv 文件对数据进行排序然后将排序后的数据写入另一个 csv 的最快方法是什么

我有一个庞大的数据集~600Gb,由多个 csv 文件组成。每个 csv 文件包含 130 万 x 17 组数据。看起来像这样 指数持续时间 is_buy_order 已发布 location_id min_v...

回答 1 投票 0

如何在Pyspark中使用广播变量的过滤功能

当我尝试使用以下命令过滤广播值时不起作用。请帮助我采取正确的方法 从 pyspark.sql 导入 * Spark=SparkSession.builder.appName("广播

回答 1 投票 0

如何在不创建数据副本的情况下进行 pd.merge?

我正在尝试将两个数据框连接在一起,如下所示: df3 = pd.merge(df1,df2, how='内部', on='key') 其中 df1 和 df2 是具有数百万行的大型数据集。基本上我如何加入他们......

回答 2 投票 0

(Spark Schedular) Spark 作业池中的公平和先进先出有什么区别?

我知道对于 Spark,我们可以将不同的池设置为公平或先进先出,并且行为可以不同。然而,在 fairscheduler.xml 中,我们还可以将单个池设置为 Fair 或 FIFO,我

回答 1 投票 0

星型模式(数据建模)仍然与使用 Databricks 的 Lake House 模式相关吗?

我对 Lake House 架构模式了解得越多,并关注 Databricks 的演示,我几乎看不到任何关于传统数据仓库中的维度建模的讨论(Kim...

回答 3 投票 0

了解 SSTable 不变性

我试图更好地理解 Cassandra 中 sstable 的不变性。当数据存在于 memtab 中时,插入操作或更新/删除操作中会发生什么,这一点非常清楚...

回答 1 投票 0

为什么spark3动态分区写入hive很慢

问题1: 我有一张数据量不大的表,但是日常写入有很多动态分区,原来spark2写入只需要2分钟就可以解决,但是升级后...

回答 1 投票 0

如何在hive中的分区内创建分区?

我在配置单元表中存储了一些数据,其字段为日期、平均温度、经度、纬度、城市和国家/地区。 我想根据城市和国家/地区对数据进行分区,城市

回答 1 投票 0

Hive 查询查找每年销售数量最多的月份

我有如下数据,我试图从中找出每年哪个月份的订购数量最大 如果数据显示不清晰,我添加了它的一个片段 QTR_ID 订购数量

回答 1 投票 0

根据其他人的现有数据批量替换一列中的 nan [重复]

假设我们有以下数据框,下面只是一个包含大量行的示例 姓名 平台 发布年份 类型 na_销售 欧盟销售 jp_销售 其他_销售 评论家分数 用户分数 评分 疯狂...

回答 1 投票 0

绘制大数据直方图

我正在尝试用Python绘制大数据(近700万个点)的直方图,我想知道值的频率。我已经尝试过这段代码,但是需要很长时间才能完成超过一个小时...

回答 1 投票 0

mongoDb Atlas - 一般来说,什么影响我在这里的写作速度?

我使用的是 M60 层的 Atlas 集群,配置的 IOPS 为 3099。 我正在尝试尽可能快地编写 116,550,000 个文档,平均每个文档的大小约为 12 KB。(最好是更少......

回答 1 投票 0

了解 GDELT

我是 Gdelt 世界的新手,我尝试了解 3 个数据库,即事件、提及、GKG。它们可以通过 ID 相互组合。但我的问题是关于提及数据库。 哪里...

回答 1 投票 0

Pyspark 读取带有缩进字符 ( ) 的 json 文件

我正在尝试使用 pyspark 读取 json 文件。我通常能够打开 json 文件,但是不知何故,我的一个 json 文件在读取时将缩进显示为字符。一开始,我做了以下...

回答 1 投票 0

在spark上编辑过滤器功能

这是我的代码,用于过滤 Spark 数据框中的所有行,其中的列很少遇到值,此代码正在工作,并且行数确实减少了(我需要它

回答 1 投票 0

最佳匹配sql查询

我的postgresql数据库中有一个表(公司),其中包含超过300,000家公司(adidas、goochie、samsung、ferrari等)。 该表本身仅包含两列:ID、company_name。 美国...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.