bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

存储基于时间的数据并识别差距

我有几百万个传感器，它们连续执行健康检查并每5分钟向服务器发送一次数据。我的任务是存储这些数据点并每小时生成一个关于那些数据的报告......

sql nosql google-bigquery bigdata

回答 1 投票 1

机器学习模型的行业生产参数

我开了一家食品公司的硕士论文。他们从一些成分开始，混合，加热，等等，直到他们最终得到糖果。但有一个问题。为了生产相同的......

machine-learning bigdata industrial

回答 1 投票 -1

部署后的Apache Storm JAR访问

我开发了一个在Apache Storm上运行的java应用程序。我们将应用程序安装到客户计算机中，我们希望客户无法访问JAR逆向工程师中的代码。 ...

java bigdata apache-storm

回答 1 投票 0

Spark SQL - 数据比较

将具有相同模式的两个csv文件（数百万行）与主键列进行比较并打印出差异的最佳方法是什么。例如，CSV1 Id名称zip 1 name1 ...

apache-spark hive apache-spark-sql hdfs bigdata

回答 1 投票 -3

存储大数据并从中生成报告的最佳方式。 mongoDb vs elasticsearch

我们有联络中心，每天创建大约100万条记录。我们使用mysql作为主数据库。记录是关于通话时间，接听电话的代理，通话类型和......

mongodb elasticsearch bigdata reporting

回答 2 投票 0

使用python和numpy加载文件的最快方法是什么？

我想训练一个模型，我有一个很大的训练数据集。它的大小超过20GB。但是当我尝试阅读它时，花了很长时间。我的意思是将它加载到内存中。 with open（file_path，newline =''...

python numpy keras io bigdata

回答 1 投票 1

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？我试图在SparkSQL中设置它们，但第二阶段的任务编号总是200。

performance apache-spark hadoop apache-spark-sql bigdata

回答 1 投票 45

无法从Kafka获取数据到分布式表

我需要从Kafka队列中获取数据（用我的脚本填充）到ClickHouse（CH）集群中的每个副本。我在每个副本上创建了：'queue'表（Kafka引擎）; '消费者'物化观点......

java apache-kafka bigdata clickhouse

回答 1 投票 0

删除重复数据Python

我有一个庞大的网状流量分布数据库。但问题是网格太小，所以它们中的某些部分是无用的，这使我的计算变得困难。在我的y维度上...

python pandas numpy bigdata

回答 1 投票 1

我需要一个Hive示例项目来进行练习。如何在大型数据库表上工作？我们如何在Hive中实际实现查询？ [关闭]

我更喜欢Hadoop。我想在Hive上做一个项目。我有Hive的基本知识。但我想知道如何加载大表并在其上运行查询。请分享任何项目的详细信息。

hadoop hive bigdata hiveql

回答 1 投票 -1

HDFS +在HDFS文件夹和本地文件系统文件夹之间创建符号链接

我在谷歌搜索但没找到它，是否有可能创建HDFS文件夹到本地文件夹之间的链接？例如，我们要在HDFS中将folder_1与/ home / hdfs_mirror本地文件夹之间建立链接...

linux hadoop hdfs bigdata

回答 1 投票 0

无法在表上运行任何查询

当我运行以下查询SELECT * FROM table_unfilter WHERE date ='2010-08-01';我收到失败：获取锁定时出错：与Metastore通信时出错当我设置时...

sql hive bigdata metastore hive-metastore

回答 1 投票 0

使用IntelliJ idea的Scala工作表作为Apache Spark的Scala REPL

是否可以使用IntelliJ中的Scala工作表作为Jupyter笔记本的替代品。我按照这里提到的解决方案，但它在本地运行代码而不是在远程集群上运行。 ...

scala apache-spark bigdata jupyter apache-toree

回答 1 投票 0

Hive - 如何在Hive中跟踪和更新增量表中的上次修改日期？

我有一个用例，其中Hive中的源表每天更新，以便刷新整个数据。在第一天，我们摄取整个餐桌，但从第二天开始，我们只...

date hadoop hive bigdata timedelta

回答 4 投票 2

Spark - 数据集之间的迭代，无需收集数据

在我的代码的某个时刻，我有两个不同类型的数据集。我需要一个数据来过滤数据到另一个。假设从这一点上无法改变代码，有什么办法......

java apache-spark hadoop apache-spark-sql bigdata

回答 1 投票 1

加载csv文件时获取com.univocity.parsers.common.TextParsingException

我正在尝试加入一个tsv数据集，该数据集在数据中有很多新行到另一个数据帧并继续得到com.univocity.parsers.common.TextParsingException我已经清理了我的数据到...

apache-spark parsing apache-spark-sql bigdata univocity

回答 1 投票 0

Hive中的行级事务

我是HiveQL的新手。当我创建一个表时，我开始知道我们需要保持TRUE某些事务的属性。然后我经历了那些：hive> set hive.support ....

hadoop hive bigdata hiveql apache-zookeeper

回答 1 投票 0

卡夫卡哪个量用呢？

我从事日志集中化项目。我正在与ELK合作收集/聚合/存储/可视化我的数据。我看到Kafka可用于大量数据，但我无法从...中找到信息

apache-kafka bigdata elastic-stack

回答 1 投票 1

何时以及为什么要使用概率密度函数？

一个想成为数据科学家的人，我试图理解作为数据科学家，何时以及为什么要使用概率密度函数（PDF）？分享场景和一些指示来了解...

statistics bigdata data-analysis data-science probability-density

回答 1 投票 2

用dplyr标准化和过滤长矩阵

我喜欢学习dplyr然而，仍然做不到基本的东西。基本上，我想将数据标准化（将条目除以行的总和）弄乱

r dplyr bigdata sparse-matrix

回答 1 投票 0

bigdata 相关问题

最新问题