bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

了解 SSTable 不变性

我试图更好地理解 Cassandra 中 sstable 的不变性。当数据存在于 memtab 中时，插入操作或更新/删除操作中会发生什么，这一点非常清楚...

database cassandra nosql bigdata

回答 1 投票 0

为什么spark3动态分区写入hive很慢

问题1：我有一张数据量不大的表，但是日常写入有很多动态分区，原来spark2写入只需要2分钟就可以解决，但是升级后...

apache-spark apache-spark-sql hive bigdata spark3

回答 1 投票 0

如何在hive中的分区内创建分区？

我在配置单元表中存储了一些数据，其字段为日期、平均温度、经度、纬度、城市和国家/地区。我想根据城市和国家/地区对数据进行分区，城市

hadoop hive bigdata

回答 1 投票 0

Hive 查询查找每年销售数量最多的月份

我有如下数据，我试图从中找出每年哪个月份的订购数量最大如果数据显示不清晰，我添加了它的一个片段 QTR_ID 订购数量

sql database hive bigdata hql

回答 1 投票 0

根据其他人的现有数据批量替换一列中的 nan [重复]

假设我们有以下数据框，下面只是一个包含大量行的示例姓名平台发布年份类型 na_销售欧盟销售 jp_销售其他_销售评论家分数用户分数评分疯狂...

python pandas data-science bigdata

回答 1 投票 0

绘制大数据直方图

我正在尝试用Python绘制大数据（近700万个点）的直方图，我想知道值的频率。我已经尝试过这段代码，但是需要很长时间才能完成超过一个小时...

python matplotlib bigdata histogram

回答 1 投票 0

mongoDb Atlas - 一般来说，什么影响我在这里的写作速度？

我使用的是 M60 层的 Atlas 集群，配置的 IOPS 为 3099。我正在尝试尽可能快地编写 116,550,000 个文档，平均每个文档的大小约为 12 KB。（最好是更少......

mongodb apache-spark bigdata mongodb-atlas

回答 1 投票 0

了解 GDELT

我是 Gdelt 世界的新手，我尝试了解 3 个数据库，即事件、提及、GKG。它们可以通过 ID 相互组合。但我的问题是关于提及数据库。哪里...

bigdata gdelt

回答 1 投票 0

Pyspark 读取带有缩进字符 ( ) 的 json 文件

我正在尝试使用 pyspark 读取 json 文件。我通常能够打开 json 文件，但是不知何故，我的一个 json 文件在读取时将缩进显示为字符。一开始，我做了以下...

json apache-spark pyspark bigdata

回答 1 投票 0

在spark上编辑过滤器功能

这是我的代码，用于过滤 Spark 数据框中的所有行，其中的列很少遇到值，此代码正在工作，并且行数确实减少了（我需要它

apache-spark pyspark apache-spark-sql data-science bigdata

回答 1 投票 0

最佳匹配sql查询

我的postgresql数据库中有一个表（公司），其中包含超过300,000家公司（adidas、goochie、samsung、ferrari等）。该表本身仅包含两列：ID、company_name。美国...

sql postgresql bigdata

回答 1 投票 0

自动下载 NiFi 流并将其上传到另一个集群

我对 NiFi 比较陌生，我想知道是否可以自动化下载一些 NiFi 模板然后将其上传到另一个集群的过程。更准确地说，我创建了一个...

python java bigdata apache-nifi flow

回答 1 投票 0

cassandra Ruby：块参数的多个值（2 为 1）

我正在尝试遵循大数据教程，它想要从使用 cqlsh 定义的键空间中读取数据。我已经成功编译了这段代码：需要“红宝石” 需要“卡桑德拉” ...

ruby cassandra bigdata datastax-ruby-driver

回答 1 投票 0

AWS SQS 不会触发期望的 Lambda stepfunctions ，不处理队列中的所有消息

我已经在s3存储桶上配置了sqs，sqs应该为s3存储桶中上传的21个文件调用21个stepfunctions，而不是只触发14个stepfunctions，并且我缺少剩余的7个事件。我...

aws-lambda bigdata amazon-sqs aws-step-functions aws-sqs-fifo

回答 1 投票 0

biglm - 错误：$ 运算符对于原子向量无效

我正在尝试在非常大的数据集（几百万行）上运行广义线性模型。然而，R 似乎无法处理分析，因为我不断收到内存分配错误（无法...

r out-of-memory bigdata ff

回答 1 投票 0

多次行动会引发失败

我是 Spark 新手。我在将 df 保存到 Hive 表的部分遇到了一些问题。 def insert_into_hive_table(df: DataFrame, table_name: str): # 用于调试 - 此操作正在运行...

apache-spark pyspark hive bigdata rdd

回答 1 投票 0

处理嵌套Json结构

假设我们有以下 json 结构： { “职位”：{ “节点”：“abc” } “提交内容”：{ “提交偏移量”：[ ...

java scala apache-spark apache-spark-sql bigdata

回答 1 投票 0

使用 pyspark 将数据提取到独立文件中以解决：Spark 缓冲区持有者大小限制问题

问题我遇到了与此相同的问题：Spark bufferholder size limit issues。我的代码是这样的： # 计算统计数据 stats = df.groupBy("EventType").agg( 大小（收集集（“

dataframe apache-spark pyspark apache-spark-sql bigdata

回答 1 投票 0

合并和重塑 3 个大型数据帧、处理重复项时遇到麻烦

我正在寻找合并和重塑 3 个表中的数据。我有 3 个表，大约有 250,000 行和 30 列。需要重塑以适应机器学习模型。这是原版...

python pandas machine-learning bigdata reshape

回答 0 投票 0

如何在 pyspark 中使用合并将 null 值替换为某个值

我有两个文件：-orders_renamed.csv，customers.csv 我使用完整的外部连接将它们连接起来，然后删除同一列（customer_id）。我想将“ord...”中的 null 值替换为“-1”

python pyspark apache-spark-sql bigdata pyspark-schema

回答 1 投票 0

bigdata 相关问题

最新问题