bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

存储基于时间的数据并识别差距

我有几百万个传感器,它们连续执行健康检查并每5分钟向服务器发送一次数据。我的任务是存储这些数据点并每小时生成一个关于那些数据的报告......

回答 1 投票 1

机器学习模型的行业生产参数

我开了一家食品公司的硕士论文。他们从一些成分开始,混合,加热,等等,直到他们最终得到糖果。但有一个问题。为了生产相同的......

回答 1 投票 -1

部署后的Apache Storm JAR访问

我开发了一个在Apache Storm上运行的java应用程序。我们将应用程序安装到客户计算机中,我们希望客户无法访问JAR逆向工程师中的代码。 ...

回答 1 投票 0

Spark SQL - 数据比较

将具有相同模式的两个csv文件(数百万行)与主键列进行比较并打印出差异的最佳方法是什么。例如,CSV1 Id名称zip 1 name1 ...

回答 1 投票 -3

存储大数据并从中生成报告的最佳方式。 mongoDb vs elasticsearch

我们有联络中心,每天创建大约100万条记录。我们使用mysql作为主数据库。记录是关于通话时间,接听电话的代理,通话类型和......

回答 2 投票 0

使用python和numpy加载文件的最快方法是什么?

我想训练一个模型,我有一个很大的训练数据集。它的大小超过20GB。但是当我尝试阅读它时,花了很长时间。我的意思是将它加载到内存中。 with open(file_path,newline =''...

回答 1 投票 1

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?我试图在SparkSQL中设置它们,但第二阶段的任务编号总是200。

回答 1 投票 45

无法从Kafka获取数据到分布式表

我需要从Kafka队列中获取数据(用我的脚本填充)到ClickHouse(CH)集群中的每个副本。我在每个副本上创建了:'queue'表(Kafka引擎); '消费者'物化观点......

回答 1 投票 0

删除重复数据Python

我有一个庞大的网状流量分布数据库。但问题是网格太小,所以它们中的某些部分是无用的,这使我的计算变得困难。在我的y维度上...

回答 1 投票 1

我需要一个Hive示例项目来进行练习。如何在大型数据库表上工作?我们如何在Hive中实际实现查询? [关闭]

我更喜欢Hadoop。我想在Hive上做一个项目。我有Hive的基本知识。但我想知道如何加载大表并在其上运行查询。请分享任何项目的详细信息。

回答 1 投票 -1

HDFS +在HDFS文件夹和本地文件系统文件夹之间创建符号链接

我在谷歌搜索但没找到它,是否有可能创建HDFS文件夹到本地文件夹之间的链接?例如,我们要在HDFS中将folder_1与/ home / hdfs_mirror本地文件夹之间建立链接...

回答 1 投票 0

无法在表上运行任何查询

当我运行以下查询SELECT * FROM table_unfilter WHERE date ='2010-08-01';我收到失败:获取锁定时出错:与Metastore通信时出错当我设置时...

回答 1 投票 0

使用IntelliJ idea的Scala工作表作为Apache Spark的Scala REPL

是否可以使用IntelliJ中的Scala工作表作为Jupyter笔记本的替代品。我按照这里提到的解决方案,但它在本地运行代码而不是在远程集群上运行。 ...

回答 1 投票 0

Hive - 如何在Hive中跟踪和更新增量表中的上次修改日期?

我有一个用例,其中Hive中的源表每天更新,以便刷新整个数据。在第一天,我们摄取整个餐桌,但从第二天开始,我们只...

回答 4 投票 2

Spark - 数据集之间的迭代,无需收集数据

在我的代码的某个时刻,我有两个不同类型的数据集。我需要一个数据来过滤数据到另一个。假设从这一点上无法改变代码,有什么办法......

回答 1 投票 1

加载csv文件时获取com.univocity.parsers.common.TextParsingException

我正在尝试加入一个tsv数据集,该数据集在数据中有很多新行到另一个数据帧并继续得到com.univocity.parsers.common.TextParsingException我已经清理了我的数据到...

回答 1 投票 0

Hive中的行级事务

我是HiveQL的新手。当我创建一个表时,我开始知道我们需要保持TRUE某些事务的属性。然后我经历了那些:hive> set hive.support ....

回答 1 投票 0

卡夫卡哪个量用呢?

我从事日志集中化项目。我正在与ELK合作收集/聚合/存储/可视化我的数据。我看到Kafka可用于大量数据,但我无法从...中找到信息

回答 1 投票 1

何时以及为什么要使用概率密度函数?

一个想成为数据科学家的人,我试图理解作为数据科学家,何时以及为什么要使用概率密度函数(PDF)?分享场景和一些指示来了解...

回答 1 投票 2

用dplyr标准化和过滤长矩阵

我喜欢学习dplyr然而,仍然做不到基本的东西。基本上,我想将数据标准化(将条目除以行的总和)弄乱

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.