大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
以下是我们必须解决的方案:从服务器中提取所有PDF文件。转换PDF到PNG在PNG上进行一些挖掘并生成TXT解析TXT以生成CSV合并CSV我写了一个...
我通过连接到某些API的脚本创建了超过50万个JSON文档。我想将这些文档导入RethinkDB,但似乎RethinkDB无法大量导入文件,所以我......
我在R中使用“bigglm”函数,我也想使用“emmeans”函数进行事后分析和绘图。但是函数emmeans无法处理类“bigglm”的对象。 ...
我们安装了一些大数据组件,如Apache Hadoop,Spark和Kafka不同的虚拟机。在生产环境中管理这些VM(某些物理服务器及其本地存储...
我想使用spark数据帧将行转换为列。我的表就像这个Eno,名字1,A 1,B 1,C 2,D 2,EI想把它转换成Eno,n1,n2,n3 1,A,B,C 2,D,E,Null I使用下面的代码: - val ...
我是R的新手,我想要实现的是我有一个CSV格式的数据集存储在mongodb中。我已经链接了Rstudio和mongodb,数据已成功导入Rstudio ....
我问这个问题是为了获得有关亚马逊服务的一些意见。我目前在m4.2xlarge实例上运行RDS,但我在大型数据库上遇到性能问题。所以我决定......
如何将key为null且setNumReduceTasks(0)为MapReduce程序中的分隔符指定空格
我试过conf.set(“mapreduce.output.textoutputformat.separator”,“”);但它没有用。 O / P正在获取{tab space} val1 {tab space} val2 O / P预期val1 val2
我想通过根据其他列值(两个或三个以上的列)将值分配给新列来处理大数据集。我有下面的Python代码。我的数据集包含1700万个数据......
如何使用Apl作为facepager访问Facebook数据?
我必须访问Facebook数据,如何使用API 访问?我使用facepager来获取数据,但它没有获取,为什么?另一种获取fb数据的方法???
在python或spark中获取大数据缺失值的最快方法是什么?
我正在处理几个数据表,这些表有超过2000万行,有30多列。目前我正在使用python pyspark来计算Null值并计算丢失率。但它需要40分钟......
我有一个巨大的csv数据集ca. 7GB,包含不同类型的列:string和float。那么将它导入Neo4j的超快速解决方案是什么?我也尝试过使用neo4j-admin导入...
我有一个存储在hdfs中的镶木地板文件,在路径中名为small:/user/s/file.parquet,并希望在包含它的内容的hive中创建一个表。文件的架构是非常复杂的,我想...
我们可以将数据插入到分区表的特定分区中,这里我们需要指定分区值。但我的要求是使用UI覆盖一个查询中表中的所有分区。我们可以吗 ...
Hive SerDe ClassCastException:java.lang.String无法强制转换为java.lang.Long
我正在编写一个自定义的Hive SerDe来解析日志(目标是将用户代理解析为hive表中的complexe结构,但它还没有代码)。但是,......
hiveserver2 org.apache.thrift.transport.TTransportException在一小段不活动后运行第二个查询时出错
我使用端口10000从我的SQL工具(即Squirrel SQL,Oracle SQL Developer)到HiveServer2(在远程服务器上运行)建立JDBC连接。我能够成功运行一些查询。然后我做......
我必须从S3读取某些文件,因此我在S3上创建了一个包含这些文件路径的CSV。我正在使用以下代码阅读创建的CSV文件:val listofFilesRDD = sparkSession.read.textFile(“s3://”+ ...
我的问题非常简单,但事实上它可能是一个真正的头脑。确定文件中哪种数据的更有效和最快捷的方法是什么。如果您有一个带有...的原始文件
我有一个“数据库选择”和arhitecture问题。用例:客户端将上传大型.json文件(或其他格式,如.tsv,这是无关紧要的),其中每一行都是关于其客户的数据(e ....
假设我有一个长度为30的数组,其中包含4个错误值。我想为那些坏的值创建一个掩码,但由于我将使用滚动窗口函数,我还想要一定数量的后续...