大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
我试图更好地理解 Cassandra 中 sstable 的不变性。当数据存在于 memtab 中时,插入操作或更新/删除操作中会发生什么,这一点非常清楚...
问题1: 我有一张数据量不大的表,但是日常写入有很多动态分区,原来spark2写入只需要2分钟就可以解决,但是升级后...
我在配置单元表中存储了一些数据,其字段为日期、平均温度、经度、纬度、城市和国家/地区。 我想根据城市和国家/地区对数据进行分区,城市
我有如下数据,我试图从中找出每年哪个月份的订购数量最大 如果数据显示不清晰,我添加了它的一个片段 QTR_ID 订购数量
假设我们有以下数据框,下面只是一个包含大量行的示例 姓名 平台 发布年份 类型 na_销售 欧盟销售 jp_销售 其他_销售 评论家分数 用户分数 评分 疯狂...
我正在尝试用Python绘制大数据(近700万个点)的直方图,我想知道值的频率。我已经尝试过这段代码,但是需要很长时间才能完成超过一个小时...
mongoDb Atlas - 一般来说,什么影响我在这里的写作速度?
我使用的是 M60 层的 Atlas 集群,配置的 IOPS 为 3099。 我正在尝试尽可能快地编写 116,550,000 个文档,平均每个文档的大小约为 12 KB。(最好是更少......
我是 Gdelt 世界的新手,我尝试了解 3 个数据库,即事件、提及、GKG。它们可以通过 ID 相互组合。但我的问题是关于提及数据库。 哪里...
Pyspark 读取带有缩进字符 ( ) 的 json 文件
我正在尝试使用 pyspark 读取 json 文件。我通常能够打开 json 文件,但是不知何故,我的一个 json 文件在读取时将缩进显示为字符。一开始,我做了以下...
这是我的代码,用于过滤 Spark 数据框中的所有行,其中的列很少遇到值,此代码正在工作,并且行数确实减少了(我需要它
我的postgresql数据库中有一个表(公司),其中包含超过300,000家公司(adidas、goochie、samsung、ferrari等)。 该表本身仅包含两列:ID、company_name。 美国...
我对 NiFi 比较陌生,我想知道是否可以自动化下载一些 NiFi 模板然后将其上传到另一个集群的过程。 更准确地说,我创建了一个...
我正在尝试遵循大数据教程,它想要从使用 cqlsh 定义的键空间中读取数据。 我已经成功编译了这段代码: 需要“红宝石” 需要“卡桑德拉” ...
AWS SQS 不会触发期望的 Lambda stepfunctions ,不处理队列中的所有消息
我已经在s3存储桶上配置了sqs,sqs应该为s3存储桶中上传的21个文件调用21个stepfunctions,而不是只触发14个stepfunctions,并且我缺少剩余的7个事件。 我...
我正在尝试在非常大的数据集(几百万行)上运行广义线性模型。然而,R 似乎无法处理分析,因为我不断收到内存分配错误(无法...
我是 Spark 新手。 我在将 df 保存到 Hive 表的部分遇到了一些问题。 def insert_into_hive_table(df: DataFrame, table_name: str): # 用于调试 - 此操作正在运行...
假设我们有以下 json 结构: { “职位”:{ “节点”:“abc” } “提交内容”:{ “提交偏移量”:[ ...
使用 pyspark 将数据提取到独立文件中以解决:Spark 缓冲区持有者大小限制问题
问题 我遇到了与此相同的问题:Spark bufferholder size limit issues。 我的代码是这样的: # 计算统计数据 stats = df.groupBy("EventType").agg( 大小(收集集(“
我正在寻找合并和重塑 3 个表中的数据。我有 3 个表,大约有 250,000 行和 30 列。需要重塑以适应机器学习模型。 这是原版...
如何在 pyspark 中使用合并将 null 值替换为某个值
我有两个文件:-orders_renamed.csv,customers.csv 我使用完整的外部连接将它们连接起来,然后删除同一列(customer_id)。 我想将“ord...”中的 null 值替换为“-1”