bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施，算法，统计数据和数据结构相关。

如何为大规模数据的并行但顺序处理分发python脚本？

以下是我们必须解决的方案：从服务器中提取所有PDF文件。转换PDF到PNG在PNG上进行一些挖掘并生成TXT解析TXT以生成CSV合并CSV我写了一个...

python multithreading architecture bigdata

回答 1 投票 0

如何在Bash中合并成千上万的json文档？

我通过连接到某些API的脚本创建了超过50万个JSON文档。我想将这些文档导入RethinkDB，但似乎RethinkDB无法大量导入文件，所以我......

json bash rethinkdb bigdata

回答 3 投票 -1

emmeans无法处理R中类“bigglm”的对象

我在R中使用“bigglm”函数，我也想使用“emmeans”函数进行事后分析和绘图。但是函数emmeans无法处理类“bigglm”的对象。 ...

r class bigdata glm emmeans

回答 1 投票 1

使用OpenStack管理大数据虚拟机

我们安装了一些大数据组件，如Apache Hadoop，Spark和Kafka不同的虚拟机。在生产环境中管理这些VM（某些物理服务器及其本地存储...

bigdata openstack

回答 1 投票 0

使用spark scala将行转换为列

我想使用spark数据帧将行转换为列。我的表就像这个Eno，名字1，A 1，B 1，C 2，D 2，EI想把它转换成Eno，n1，n2，n3 1，A，B，C 2，D，E，Null I使用下面的代码： - val ...

scala apache-spark hadoop hive bigdata

回答 2 投票 0

尝试使用R与mongodb在ggplot中制作条形图

我是R的新手，我想要实现的是我有一个CSV格式的数据集存储在mongodb中。我已经链接了Rstudio和mongodb，数据已成功导入Rstudio ....

r mongodb ggplot2 bigdata visualization

回答 1 投票 -1

5节点m4.large实例与m4.2xlarge RDS

我问这个问题是为了获得有关亚马逊服务的一些意见。我目前在m4.2xlarge实例上运行RDS，但我在大型数据库上遇到性能问题。所以我决定......

amazon-web-services amazon-ec2 bigdata amazon-rds

回答 2 投票 -1

如何将key为null且setNumReduceTasks（0）为MapReduce程序中的分隔符指定空格

我试过conf.set（“mapreduce.output.textoutputformat.separator”，“”）;但它没有用。 O / P正在获取{tab space} val1 {tab space} val2 O / P预期val1 val2

java hadoop mapreduce bigdata

回答 1 投票 0

在Python中为大数据集加速每行的循环

我想通过根据其他列值（两个或三个以上的列）将值分配给新列来处理大数据集。我有下面的Python代码。我的数据集包含1700万个数据......

python pandas performance loops bigdata

回答 1 投票 0

如何使用Apl作为facepager访问Facebook数据？

我必须访问Facebook数据，如何使用API 访问？我使用facepager来获取数据，但它没有获取，为什么？另一种获取fb数据的方法???

java data-analysis bigdata

回答 2 投票 0

在python或spark中获取大数据缺失值的最快方法是什么？

我正在处理几个数据表，这些表有超过2000万行，有30多列。目前我正在使用python pyspark来计算Null值并计算丢失率。但它需要40分钟......

python pyspark bigdata

回答 1 投票 1

将非常大的数据集导入Neo4j

我有一个巨大的csv数据集ca. 7GB，包含不同类型的列：string和float。那么将它导入Neo4j的超快速解决方案是什么？我也尝试过使用neo4j-admin导入...

csv import neo4j bigdata

回答 1 投票 0

根据镶木地板文件创建一个带有配置单元的表

我有一个存储在hdfs中的镶木地板文件，在路径中名为small：/user/s/file.parquet，并希望在包含它的内容的hive中创建一个表。文件的架构是非常复杂的，我想...

hadoop hive bigdata schema parquet

回答 1 投票 3

如何在BigQuery UI中插入覆盖分区表？

我们可以将数据插入到分区表的特定分区中，这里我们需要指定分区值。但我的要求是使用UI覆盖一个查询中表中的所有分区。我们可以吗 ...

google-bigquery google-cloud-platform bigdata

回答 3 投票 1

Hive SerDe ClassCastException：java.lang.String无法强制转换为java.lang.Long

我正在编写一个自定义的Hive SerDe来解析日志（目标是将用户代理解析为hive表中的complexe结构，但它还没有代码）。但是，......

hadoop hive bigdata hiveql

回答 1 投票 1

hiveserver2 org.apache.thrift.transport.TTransportException在一小段不活动后运行第二个查询时出错

我使用端口10000从我的SQL工具（即Squirrel SQL，Oracle SQL Developer）到HiveServer2（在远程服务器上运行）建立JDBC连接。我能够成功运行一些查询。然后我做......

java hadoop hive bigdata thrift

回答 1 投票 0

NULL指针异常，在foreach（）中创建DF时

我必须从S3读取某些文件，因此我在S3上创建了一个包含这些文件路径的CSV。我正在使用以下代码阅读创建的CSV文件：val listofFilesRDD = sparkSession.read.textFile（“s3：//”+ ...

scala apache-spark amazon-s3 spark-dataframe bigdata

回答 3 投票 2

查找文件中哪种数据类型的最快方法

我的问题非常简单，但事实上它可能是一个真正的头脑。确定文件中哪种数据的更有效和最快捷的方法是什么。如果您有一个带有...的原始文件

hadoop bigdata

回答 1 投票 1

用于大数据文件和流的数据库

我有一个“数据库选择”和arhitecture问题。用例：客户端将上传大型.json文件（或其他格式，如.tsv，这是无关紧要的），其中每一行都是关于其客户的数据（e ....

database mongodb hadoop bigdata

回答 1 投票 3

有效地为每个坏值将n个单元格向右延伸n个单元格

假设我有一个长度为30的数组，其中包含4个错误值。我想为那些坏的值创建一个掩码，但由于我将使用滚动窗口函数，我还想要一定数量的后续...

python numpy bigdata

回答 7 投票 8

bigdata 相关问题

最新问题