bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何为大规模数据的并行但顺序处理分发python脚本?

以下是我们必须解决的方案:从服务器中提取所有PDF文件。转换PDF到PNG在PNG上进行一些挖掘并生成TXT解析TXT以生成CSV合并CSV我写了一个...

回答 1 投票 0

如何在Bash中合并成千上万的json文档?

我通过连接到某些API的脚本创建了超过50万个JSON文档。我想将这些文档导入RethinkDB,但似乎RethinkDB无法大量导入文件,所以我......

回答 3 投票 -1

emmeans无法处理R中类“bigglm”的对象

我在R中使用“bigglm”函数,我也想使用“emmeans”函数进行事后分析和绘图。但是函数emmeans无法处理类“bigglm”的对象。 ...

回答 1 投票 1

使用OpenStack管理大数据虚拟机

我们安装了一些大数据组件,如Apache Hadoop,Spark和Kafka不同的虚拟机。在生产环境中管理这些VM(某些物理服务器及其本地存储...

回答 1 投票 0

使用spark scala将行转换为列

我想使用spark数据帧将行转换为列。我的表就像这个Eno,名字1,A 1,B 1,C 2,D 2,EI想把它转换成Eno,n1,n2,n3 1,A,B,C 2,D,E,Null I使用下面的代码: - val ...

回答 2 投票 0

尝试使用R与mongodb在ggplot中制作条形图

我是R的新手,我想要实现的是我有一个CSV格式的数据集存储在mongodb中。我已经链接了Rstudio和mongodb,数据已成功导入Rstudio ....

回答 1 投票 -1

5节点m4.large实例与m4.2xlarge RDS

我问这个问题是为了获得有关亚马逊服务的一些意见。我目前在m4.2xlarge实例上运行RDS,但我在大型数据库上遇到性能问题。所以我决定......

回答 2 投票 -1

如何将key为null且setNumReduceTasks(0)为MapReduce程序中的分隔符指定空格

我试过conf.set(“mapreduce.output.textoutputformat.separator”,“”);但它没有用。 O / P正在获取{tab space} val1 {tab space} val2 O / P预期val1 val2

回答 1 投票 0

在Python中为大数据集加速每行的循环

我想通过根据其他列值(两个或三个以上的列)将值分配给新列来处理大数据集。我有下面的Python代码。我的数据集包含1700万个数据......

回答 1 投票 0

如何使用Apl作为facepager访问Facebook数据?

我必须访问Facebook数据,如何使用API 访问?我使用facepager来获取数据,但它没有获取,为什么?另一种获取fb数据的方法???

回答 2 投票 0

在python或spark中获取大数据缺失值的最快方法是什么?

我正在处理几个数据表,这些表有超过2000万行,有30多列。目前我正在使用python pyspark来计算Null值并计算丢失率。但它需要40分钟......

回答 1 投票 1

将非常大的数据集导入Neo4j

我有一个巨大的csv数据集ca. 7GB,包含不同类型的列:string和float。那么将它导入Neo4j的超快速解决方案是什么?我也尝试过使用neo4j-admin导入...

回答 1 投票 0

根据镶木地板文件创建一个带有配置单元的表

我有一个存储在hdfs中的镶木地板文件,在路径中名为small:/user/s/file.parquet,并希望在包含它的内容的hive中创建一个表。文件的架构是非常复杂的,我想...

回答 1 投票 3

如何在BigQuery UI中插入覆盖分区表?

我们可以将数据插入到分区表的特定分区中,这里我们需要指定分区值。但我的要求是使用UI覆盖一个查询中表中的所有分区。我们可以吗 ...

回答 3 投票 1

Hive SerDe ClassCastException:java.lang.String无法强制转换为java.lang.Long

我正在编写一个自定义的Hive SerDe来解析日志(目标是将用户代理解析为hive表中的complexe结构,但它还没有代码)。但是,......

回答 1 投票 1

hiveserver2 org.apache.thrift.transport.TTransportException在一小段不活动后运行第二个查询时出错

我使用端口10000从我的SQL工具(即Squirrel SQL,Oracle SQL Developer)到HiveServer2(在远程服务器上运行)建立JDBC连接。我能够成功运行一些查询。然后我做......

回答 1 投票 0

NULL指针异常,在foreach()中创建DF时

我必须从S3读取某些文件,因此我在S3上创建了一个包含这些文件路径的CSV。我正在使用以下代码阅读创建的CSV文件:val listofFilesRDD = sparkSession.read.textFile(“s3://”+ ...

回答 3 投票 2

查找文件中哪种数据类型的最快方法

我的问题非常简单,但事实上它可能是一个真正的头脑。确定文件中哪种数据的更有效和最快捷的方法是什么。如果您有一个带有...的原始文件

回答 1 投票 1

用于大数据文件和流的数据库

我有一个“数据库选择”和arhitecture问题。用例:客户端将上传大型.json文件(或其他格式,如.tsv,这是无关紧要的),其中每一行都是关于其客户的数据(e ....

回答 1 投票 3

有效地为每个坏值将n个单元格向右延伸n个单元格

假设我有一个长度为30的数组,其中包含4个错误值。我想为那些坏的值创建一个掩码,但由于我将使用滚动窗口函数,我还想要一定数量的后续...

回答 7 投票 8

© www.soinside.com 2019 - 2024. All rights reserved.