bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

从数据集中获取值 到.txt文件(使用Java)[重复]

我是新来的,所以我希望能帮助你并在可能的情况下得到帮助。我在Java中使用Spark SQL和ML Spark创建了一个Apache Spark项目。我已经完成了这个项目,但我有一些问题......

回答 1 投票 0

如何优化大型数据集的查询?

我原来的查询 - CREATE TABLE admin.FctPrfitAmt_rpt AS SELECT rcn。* FROM(SELECT t1。* FROM(SELECT * FROM admin.FctPrfitAmt t2 WHERE t2.scenario_id NOT IN(SELECT DISTINCT t3.scenario_id FROM ...

回答 3 投票 3

如何使用bigquery流将嵌套数据插入现有记录

我试图理解bigQuery,看看它是否符合我们的需求。我们的基本要求之一是存储嵌套结构,使嵌套部分需要单独存储而不是......

回答 1 投票 2

不同匹配级别的spark加入

我有两个火花数据帧:df1 = sc.parallelize([['a','1','value1'],['b','1','value2'],['c','2', 'value3'],['d','4','value4'],['e','2','value5'],['f','4','...

回答 1 投票 0

Sqoop导入具有带有where子句和并行处理的SQL查询

我在mysql中有一个如下表:Order_Details:+ --------- + ------------ + --------------- ---- + -------------- + ...

回答 1 投票 0

关于Google Big Query中数据框中的DateTime与DateTime的问题

我正在尝试将数据从数据框推送到Google Big Query。我将数据框的日期字段设置为df ['time'] = df ['time']。astype('datetime64 [ns]')并将Google的Big Query日期设置为* ...

回答 1 投票 0

使用python从bigquery处理大量数据集,将其加载回bigquery表

我在bigquery中有一个巨大的数据集,有5000万行和57列。我想做很多过滤/转换/清理而不是使用sql。我尝试使用dask / panda / python在dask中加载数据...

回答 1 投票 0

设置多节点Hadoop Hortonworks群集

我正在研究hadoop中的概念验证,我可能会设置一个具有HDP和HDF hortonwork组件的集群。数据量非常小,因此磁盘容量可能不需要超过......

回答 1 投票 0

数据重构和转换mysql到hdfs和mongodb

我们正面临数据迁移问题。我们有两个负载很重的表。我们曾经实时进行连接并从两个表中获取聚合数据。由于尺寸增加我们想...

回答 1 投票 -1

如何在scala中检查用户输入类型(数据类型)?

我想在scala中从控制台检查用户输入类型(数据类型)?我需要检查输入数据是Int,String,Double,Float。

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.