bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

将来自dask数据帧的大量数据加载到bigquery

我阅读了其他类似的主题并搜索了Google以找到更好的方法，但找不到任何在性能方面可接受的解决方案。我有一个非常大的dask数据帧，有100个分区......

python google-bigquery bigdata dask dask-distributed

回答 1 投票 0

dask中的多个sum（）。compute（）用于非常大的数据集

我有一个带有100个分区的dask数据帧（将100个json文件聚合在一起，大约45GB）。我想用大约15-20列的.sum（）。compute（）计算一些指标。每个....

bigdata dask dask-distributed

回答 1 投票 0

Apache Kafka在PACELC-Theorem中的位置

我开始了解Apache Kafka。这篇https://engineering.linkedin.com/kafka/intra-cluster-replication-apache-kafka文章指出Kafka是CAP-Theorem中的CA系统。所以 ...

apache-kafka bigdata cap-theorem

回答 1 投票 8

在不同数据帧中提取和减去行R的更有效方法

我正在使用大约50,000行的数据框游戏来处理这个篮球游戏数据。我试图比较每个游戏中每个团队（A和B）的统计数据。我有另一个名为...的数据框

r performance dataframe for-loop bigdata

回答 2 投票 0

自定义inputformat用于读取hadoop中的json

我是hadoop的初学者，我被告知创建一个自定义inputformat类来读取json数据，我已经google了，并学会了如何创建一个自定义inputformat类来从文件中读取数据。但是我......

json hadoop mapreduce bigdata

回答 1 投票 2

在R中列出与大CSV的串联

我是R的新手，我必须连接两个大约有两百万个观察和25个变量的列表。更确切地说，我通过阅读两个大的CSV来获得这两个列表...

r list bigdata concat

回答 1 投票 0

为什么大公司正在使用其他数据库为什么不使用HDFS？

我开始知道hadoop用于以更便宜的成本存储数据（分布式），而我们可以在一个问题出现后将结构化，非结构化和半结构化数据存储到HDFS中......

hadoop nosql bigdata

回答 2 投票 1

cassandra的cqlsh控制台中的操作超时错误

我有三个节点Cassandra Cluster，我创建了一个表，其中有超过2,000,000行。当我在cqlsh中执行此操作（从userdetails中选择count（*））查询时，我收到此错误：...

java cassandra bigdata datastax cqlsh

回答 7 投票 14

大型稀疏矩阵到三角矩阵R

我在R中有一个非常大的（大约9100万个非零条目）sparseMatrix（）看起来像：> myMatrix a b c a。 1 2 b 1。。 c 2。。我想把它转换成三角形矩阵（鞋面...

r matrix sparse-matrix bigdata triangular

回答 2 投票 1

将数据从一个群集复制到另一个群集时，Hadoop Distcp会中止

我试图将分区的Hive表的数据从一个集群复制到另一个集群。我使用distcp来复制数据，但数据基础数据是分区的配置单元表。我用了以下......

apache hadoop hive bigdata distcp

回答 3 投票 2

如何在Spark中增加小数精度？

我有一个大型DataFrame，由~550列双精度和两列long（id）组成。正在从csv读入550列，我添加了两个id列。我做的唯一其他事情......

python scala apache-spark spark-dataframe bigdata

回答 1 投票 3

验证集是否用于更新神经网络？

我有一个神经网络的问题假设我有60个训练，20个验证和20个测试集。对于每个时期，我会在调整每个样本的权重的同时运行60个训练集样本...

validation machine-learning neural-network deep-learning bigdata

回答 2 投票 1

什么是火花中的驱动程序内存和执行程序内存？ [重复]

我是新兴的spark框架，我想知道什么是驱动程序内存和执行程序内存？从两者中获得最大性能的有效方法是什么？

apache-spark bigdata

回答 1 投票 0

大数据Hadoop HDFS - put命令

我无法将文件从本地复制到HDFS。该命令会抛出这些错误。

hadoop hdfs bigdata

回答 2 投票 0

Bigtable / HBase：Rich列族与单个JSON对象

我想在Google Cloud Bigtable（一些PetaBytes）上存储大量数据用于服务目的。我计划使用主键访问数据，有时使用键前缀查询。没有数据 ...

json hbase google-cloud-bigtable bigdata nosql

回答 1 投票 4

使用talend（Big Data Hive）获取过去三个月的数据

我有一个查询，以使用talend从大数据配置单元获取所有数据这是我通常使用的查询：SELECT bd_bt_xyz.xllnis05_timestamp，bd_bt_xyz.xllnis05_key ,. 。（太多的领域）......

hive bigdata talend

回答 1 投票 2

Flink中的水印和触发器之间有什么区别？

我读到了，“..订购操作员必须缓冲它收到的所有元素。然后，当它收到水印时，它可以对所有时间戳低于水印的元素进行排序，并且...

stream bigdata real-time apache-flink flink-streaming

回答 2 投票 0

大数据和数据湖之间的比较，差异和相似之处

有人能告诉我大数据和数据湖之间的相同点和不同点。任何地方都找不到满意的答案。

bigdata data-science data-lake

回答 3 投票 -2

如何从cassandra表中流式传输数据？

我想从一个实时更新的cassandra表中流式传输数据。是的，它是一个数据库但是有办法做到这一点吗？如果是这样，保留偏移或我可以使用哪些CQL查询？

cassandra streaming spark-streaming spring-xd bigdata

回答 2 投票 5

是否有用于实现分区/副本存储系统的开源框架？

我需要为实时引擎实现分布式存储系统。存储系统的一些基本要求是：1）将数据分区到不同的分区2）每个分区都有......

bigdata storage

回答 1 投票 0

bigdata 相关问题

最新问题