大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
我阅读了其他类似的主题并搜索了Google以找到更好的方法,但找不到任何在性能方面可接受的解决方案。我有一个非常大的dask数据帧,有100个分区......
dask中的多个sum()。compute()用于非常大的数据集
我有一个带有100个分区的dask数据帧(将100个json文件聚合在一起,大约45GB)。我想用大约15-20列的.sum()。compute()计算一些指标。每个....
Apache Kafka在PACELC-Theorem中的位置
我开始了解Apache Kafka。这篇https://engineering.linkedin.com/kafka/intra-cluster-replication-apache-kafka文章指出Kafka是CAP-Theorem中的CA系统。所以 ...
我正在使用大约50,000行的数据框游戏来处理这个篮球游戏数据。我试图比较每个游戏中每个团队(A和B)的统计数据。我有另一个名为...的数据框
自定义inputformat用于读取hadoop中的json
我是hadoop的初学者,我被告知创建一个自定义inputformat类来读取json数据,我已经google了,并学会了如何创建一个自定义inputformat类来从文件中读取数据。但是我......
我是R的新手,我必须连接两个大约有两百万个观察和25个变量的列表。更确切地说,我通过阅读两个大的CSV来获得这两个列表...
我开始知道hadoop用于以更便宜的成本存储数据(分布式),而我们可以在一个问题出现后将结构化,非结构化和半结构化数据存储到HDFS中......
我有三个节点Cassandra Cluster,我创建了一个表,其中有超过2,000,000行。当我在cqlsh中执行此操作(从userdetails中选择count(*))查询时,我收到此错误:...
我在R中有一个非常大的(大约9100万个非零条目)sparseMatrix()看起来像:> myMatrix a b c a。 1 2 b 1。 。 c 2。 。我想把它转换成三角形矩阵(鞋面...
将数据从一个群集复制到另一个群集时,Hadoop Distcp会中止
我试图将分区的Hive表的数据从一个集群复制到另一个集群。我使用distcp来复制数据,但数据基础数据是分区的配置单元表。我用了以下......
我有一个大型DataFrame,由~550列双精度和两列long(id)组成。正在从csv读入550列,我添加了两个id列。我做的唯一其他事情......
我有一个神经网络的问题假设我有60个训练,20个验证和20个测试集。对于每个时期,我会在调整每个样本的权重的同时运行60个训练集样本...
我是新兴的spark框架,我想知道什么是驱动程序内存和执行程序内存?从两者中获得最大性能的有效方法是什么?
Bigtable / HBase:Rich列族与单个JSON对象
我想在Google Cloud Bigtable(一些PetaBytes)上存储大量数据用于服务目的。我计划使用主键访问数据,有时使用键前缀查询。没有数据 ...
使用talend(Big Data Hive)获取过去三个月的数据
我有一个查询,以使用talend从大数据配置单元获取所有数据这是我通常使用的查询:SELECT bd_bt_xyz.xllnis05_timestamp,bd_bt_xyz.xllnis05_key ,. 。 (太多的领域)......
我读到了,“..订购操作员必须缓冲它收到的所有元素。然后,当它收到水印时,它可以对所有时间戳低于水印的元素进行排序,并且...
有人能告诉我大数据和数据湖之间的相同点和不同点。任何地方都找不到满意的答案。
我想从一个实时更新的cassandra表中流式传输数据。是的,它是一个数据库但是有办法做到这一点吗?如果是这样,保留偏移或我可以使用哪些CQL查询?
我需要为实时引擎实现分布式存储系统。存储系统的一些基本要求是:1)将数据分区到不同的分区2)每个分区都有......