bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

Python3:如何改进以下术语频率算法?

我有各种文件,其中有数千行,没有标题。每行的内容具有以下结构:第一个元素('LGAV')代表始发机场,第二个元素('EGGW')...

回答 1 投票 0

遇到“ WARN ProcfsMetricsGetter:尝试计算页面大小时发生异常”,在运行Spark时出错

我安装了spark并且尝试运行它时,出现错误:WARN ProcfsMetricsGetter:尝试计算页面大小时发生异常,因为停止报告ProcessTree度量可以...

回答 1 投票 0

在Azure中使用.Net为大数据创建实时仪表盘的最有效方法是什么?

假设的简化方案:我有一个Asp.Net Core 3 API,该API接受Javascript中的Pizza订单。订购披萨,我在C#API中反序列化对象。我现在有一个对象“ Pizza”:{...

回答 1 投票 0

谁是rabbitmq集群管理器?如何从群集中获取数据?

我创建了Rabbitmq集群。有三个节点,一个主站,两个从站。当主节点去世时,谁来决定哪个从节点是新的主节点。谁是集群管理员?以及如何从集群中获取数据。我可以...

回答 1 投票 0

计算两个字典之间的点积百万次

我有两个字典d1 = {'string1':number1,...,'string5 000 000':number5000000}不变,许多小字典d_i = {'str1':num1,...,'str50 ':num50}(i = 2、3,...,一个...

回答 1 投票 0

具有R的高频数据的多重协方差矩阵

我正在处理包含200万个观测值的高频数据。现在,我需要计算每日实现的协方差矩阵,定义为:设为日内价格向量,然后将...

回答 1 投票 0

从大文件中删除特定行的最快方法是什么?

从文件中删除行(包含特定子字符串)的最佳方法是什么?我试图将整个文件加载到一个切片中,修改该切片,然后将该切片打印到文件中,......>

回答 1 投票 0

hadoop提取文件

我对hadoop感到很陌生,希望您的帮助。我正在将文件从一个目录提取到另一个目录的过程。我使用以下命令:Blockquote hadoop fs -copyFromLocal ./tmp/text ....

回答 1 投票 0

MySQL的ElasticSearch用于汇总数以千万计的非常简单的记录

我想知道MySQL还是ElasticSearch根本上是构建该项目的更好工具?给定以下格式的PING响应时间数据库:时间戳记主机...

回答 1 投票 0

读取配置单元表时火花引发错误

我正在尝试从蜂巢中的db.abc中选择*,此蜂巢表是使用spark加载的,它不起作用显示了错误:错误:java.io.IOException:java.lang.IllegalArgumentException:bucketId ...] >

回答 1 投票 2

如何有效地将Pandas Dataframe保存到一个/多个TFRecord文件中?

首先,我想快速讲一些背景。我最终想要实现的是在张量流框架下训练一个完全连接的神经网络来解决多类分类问题。 ...

回答 1 投票 8

针对来自MySQL的大数据的推荐ETL解决方案?

我有一种情况,第三方将数据存储在每日表中,如果记录数超过200万,则会创建一个后续表,依此类推,命名为[date] _x。现在,我们有一个报告...

回答 1 投票 0

将100 GB的数据从C#应用程序移至Cassandra或任何类似的大数据存储区的有效方法是什么?

这100 GB的数据来自电子设备,将以文件的形式出现。目前,我们的应用程序会生成4-6 GB的数据,并将其存储在Google云端硬盘中。我们在想什么...

回答 1 投票 0

Elastic search Logstash如何根据orcal时间戳配置UTC时间

我正在使用Elastic search Logstash,将orcal数据库中的更新捕获到弹性搜索中。我的问题==>如何使用orcal时间戳配置sql_last_start UTC时间参数。这是...

回答 2 投票 0

MySQL定价表中的大量连续(重新)导入和刷新数据

我有一个大数据集(约250万行),需要将其连续(重新)导入MySQL表“ price_list”。所有表都是InnoDB。当前,我正在使用“ LOAD DATA LOCAL INFILE”,因为...

回答 1 投票 1

在EC2服务器上的R中分析大数据

我设法将来自RStudio实例(在EC2服务器上)的6个沉重的excel文件加载并合并到PostgreQSL(与RDS链接)的单个表中。现在该表有14列和2,4 ...

回答 1 投票 0

通过pyspark作业更新数据库表的最佳方法

我有一个火花作业,可以从多个来源获取数据并汇总到一个表中。仅当有新数据时,作业才应更新表。我可以想到的一种方法是获取数据...

回答 2 投票 0

aggregateByKey不更新初始集合的值

hllTotal中的值已更新,但每个键的hllToday仍为零。谁能帮忙,为什么hllToday在这里没有更新? val hllToday:HllSerializable = new HllSerializable(...

回答 1 投票 0

将数据块从大文件写入新文件的最快方法是什么?

假设我有一个文件,它只是非常相似的块的重复(下面显示了简化的示例)。提取某些块并将其写入单独文件的最快方法是什么? ...

回答 1 投票 -3

Apache NIFI:ExtractAvroMetadata处理

extractAvroMetadata在其属性部分中指示,对于属性“元数据密钥”,我们可以使用逗号分隔的列表来指示要从avro模式获取的字段。有没有人...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.