bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

将来自dask数据帧的大量数据加载到bigquery

我阅读了其他类似的主题并搜索了Google以找到更好的方法,但找不到任何在性能方面可接受的解决方案。我有一个非常大的dask数据帧,有100个分区......

回答 1 投票 0

dask中的多个sum()。compute()用于非常大的数据集

我有一个带有100个分区的dask数据帧(将100个json文件聚合在一起,大约45GB)。我想用大约15-20列的.sum()。compute()计算一些指标。每个....

回答 1 投票 0

Apache Kafka在PACELC-Theorem中的位置

我开始了解Apache Kafka。这篇https://engineering.linkedin.com/kafka/intra-cluster-replication-apache-kafka文章指出Kafka是CAP-Theorem中的CA系统。所以 ...

回答 1 投票 8

在不同数据帧中提取和减去行R的更有效方法

我正在使用大约50,000行的数据框游戏来处理这个篮球游戏数据。我试图比较每个游戏中每个团队(A和B)的统计数据。我有另一个名为...的数据框

回答 2 投票 0

自定义inputformat用于读取hadoop中的json

我是hadoop的初学者,我被告知创建一个自定义inputformat类来读取json数据,我已经google了,并学会了如何创建一个自定义inputformat类来从文件中读取数据。但是我......

回答 1 投票 2

在R中列出与大CSV的串联

我是R的新手,我必须连接两个大约有两百万个观察和25个变量的列表。更确切地说,我通过阅读两个大的CSV来获得这两个列表...

回答 1 投票 0

为什么大公司正在使用其他数据库为什么不使用HDFS?

我开始知道hadoop用于以更便宜的成本存储数据(分布式),而我们可以在一个问题出现后将结构化,非结构化和半结构化数据存储到HDFS中......

回答 2 投票 1

cassandra的cqlsh控制台中的操作超时错误

我有三个节点Cassandra Cluster,我创建了一个表,其中有超过2,000,000行。当我在cqlsh中执行此操作(从userdetails中选择count(*))查询时,我收到此错误:...

回答 7 投票 14

大型稀疏矩阵到三角矩阵R

我在R中有一个非常大的(大约9100万个非零条目)sparseMatrix()看起来像:> myMatrix a b c a。 1 2 b 1。 。 c 2。 。我想把它转换成三角形矩阵(鞋面...

回答 2 投票 1

将数据从一个群集复制到另一个群集时,Hadoop Distcp会中止

我试图将分区的Hive表的数据从一个集群复制到另一个集群。我使用distcp来复制数据,但数据基础数据是分区的配置单元表。我用了以下......

回答 3 投票 2

如何在Spark中增加小数精度?

我有一个大型DataFrame,由~550列双精度和两列long(id)组成。正在从csv读入550列,我添加了两个id列。我做的唯一其他事情......

回答 1 投票 3

验证集是否用于更新神经网络?

我有一个神经网络的问题假设我有60个训练,20个验证和20个测试集。对于每个时期,我会在调整每个样本的权重的同时运行60个训练集样本...

回答 2 投票 1

什么是火花中的驱动程序内存和执行程序内存? [重复]

我是新兴的spark框架,我想知道什么是驱动程序内存和执行程序内存?从两者中获得最大性能的有效方法是什么?

回答 1 投票 0

大数据Hadoop HDFS - put命令

我无法将文件从本地复制到HDFS。该命令会抛出这些错误。

回答 2 投票 0

Bigtable / HBase:Rich列族与单个JSON对象

我想在Google Cloud Bigtable(一些PetaBytes)上存储大量数据用于服务目的。我计划使用主键访问数据,有时使用键前缀查询。没有数据 ...

回答 1 投票 4

使用talend(Big Data Hive)获取过去三个月的数据

我有一个查询,以使用talend从大数据配置单元获取所有数据这是我通常使用的查询:SELECT bd_bt_xyz.xllnis05_timestamp,bd_bt_xyz.xllnis05_key ,. 。 (太多的领域)......

回答 1 投票 2

Flink中的水印和触发器之间有什么区别?

我读到了,“..订购操作员必须缓冲它收到的所有元素。然后,当它收到水印时,它可以对所有时间戳低于水印的元素进行排序,并且...

回答 2 投票 0

大数据和数据湖之间的比较,差异和相似之处

有人能告诉我大数据和数据湖之间的相同点和不同点。任何地方都找不到满意的答案。

回答 3 投票 -2

如何从cassandra表中流式传输数据?

我想从一个实时更新的cassandra表中流式传输数据。是的,它是一个数据库但是有办法做到这一点吗?如果是这样,保留偏移或我可以使用哪些CQL查询?

回答 2 投票 5

是否有用于实现分区/副本存储系统的开源框架?

我需要为实时引擎实现分布式存储系统。存储系统的一些基本要求是:1)将数据分区到不同的分区2)每个分区都有......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.