bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何操纵R中的庞大数据集?

首先,我很抱歉可能会重复这个问题。但是,我看了很多其他类似的问题,无法解决我的问题。好吧,我正在使用庞大的数据集,......

回答 1 投票 0

Knime太慢了 - 表现

我刚刚开始使用KNIME,它假设管理了大量数据,但事实并非如此,它很慢并且通常没有响应。我将管理的数据超过我现在使用的数据,我做错了什么?我开始......

回答 3 投票 0

在弹性搜索中实现此方案的最佳方法

我正在索引Elastic搜索中的一些数据以加快搜索速度。在当前系统(Oracle)中,对特定列的访问由如下表控制:数据表(这将成为...

回答 1 投票 0

HDFS默认块大小为128 MB,而Hive默认条带大小为250 MB

HDFS块大小默认为128 MB(来源:https://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml)Hive条带大小为250 MB默认(来源:https:// cwiki ....

回答 1 投票 0

如何将SAX(符号聚合近似)映射回时间序列

我将我的长时间序列转换为分段多项式近似,然后使用SAX表示转换为符号形式。基本上,我使用这些算法来检测图案(重复模式......

回答 1 投票 0

Spark DataFrame限制功能需要花费太多时间才能显示

从pyspark.sql导入pyspark从pyspark.conf导入SparkSession导入来自pyspark.sql.functions的sparkConf import findspark import countDistinct spark = SparkSession.builder \ .master(“local [*]”...

回答 1 投票 0

在Yugabyte MYSQL中启用语句

我想查看正在执行的所有SQL语句。像postgres中的log_statement = all。如何在Yugabyte MYSQL中启用语句日志记录?

回答 1 投票 2

来自HDFS的OraclePropertyGraphDataLoader loadData

我正在使用Spark + Hive来构建图形和关系,并将平面OPV / OPE文件导出到HDFS,每个减速器一个OPV / OPE CSV。我们所有的图形数据库都已准备好加载到OPG / PGX上进行分析......

回答 2 投票 4

在Python中处理数百万行

我想在这个问题前面加上这样一个事实,即我已经完成了对python时间复杂度和数据结构的研究,可以加快速度。但是,我正在努力想到......

回答 3 投票 0

HortonWorks或Cloudera认证[已结束]

Hortonworks和cloudera公司现在合并,哪种认证更好?请分享您对此的看法。

回答 1 投票 -5

根据条件,在聚合期间无法获得准确的计数

我有一个名为tbl1的表。其中包含3列empId,Designation和salaryScale empId Designation salaryScale Arun Developer 1 Kiran Developer 0 Anu ITA ...

回答 2 投票 0

错误exec.DDLTask:java.lang.NoSuchMethodError:

我使用sqoop将数据从mysql导入到hive:sqoop import --connect jdbc:mysql:// localhost:3306 / DATASET -username root -P -table MATCHES --hive-import FAILED:Execution Error,return ...

回答 1 投票 -2

将与个人相关的所有金额按日期汇总

我有这个Dataframe df:payout person1 person2 date 1 300.0 LA NaN 2012-02-01 2 500.0 DO NaN 2012-02-01 3 600.0 DO NaN 2012-02 -...

回答 2 投票 1

如何处理django admin中具有大量记录的选择框

我的应用程序已经增长,以便django管理员的下降有100,000个选项。我甚至无法打开我的管理员,因为它在数据库上的负载,没有提到我将无法...

回答 3 投票 4

在Ambari上设置群集时,确认单个节点群集的主机失败

我试图在单节点集群上设置Ambari。 Ambari设置以root用户身份完成我尝试了与此相关的所有帖子,更改权限并设置为权限http://docs.hortonworks ....

回答 2 投票 0

jq:error(在ec-state:1028):无法迭代null(null)

我有一个冗长的JSON文件,我执行命令得到如下所示的输出:jq -s'。[] | 。“lrouter / show”[] | del(。| select(.type ==“TUNNEL-VRF”))| del(.ports [] | select(.type ==“...

回答 1 投票 0

如何在python中更快地操作大文件?

我必须循环访问30GB的文件(其中有30个),500mb大约需要15分钟。如何知道我逐行循环每一行,我如何优化性能? Python导入...

回答 2 投票 1

为什么在hive中CTAS查询没有按预期给出结果?

在这种情况下,我创建了一个包含100行的hive表“test”。当我启动hive终端并输入以下SQL select * from test tablesample(2%);它返回3行数据;但当 ...

回答 1 投票 0

Redshift中的数据库和ETL策略

我在Amazon S3中存储的文件中有大量数据,并计划使用它在Redshift中构建数据库。我的第一个问题是,正确的方法是建立DV和数据集市......

回答 3 投票 2

我可以在spark中存储有序队列吗?

我正在开发一个作业调度程序,用于实时数据(总共可以达到20-30 M)。我想为所有人维护一个优先级队列,以决定首先发送哪些数据。 ......

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.