大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
我有大的数据框架,包括位置,时间戳,旅行ID等。我想以一种简单的方式,避免双循环,过滤掉并只保存一些行。所以对于所有有...的行
这是我的数据帧架构:`root | - customerid:string(nullable = true)| - event:string(nullable = true)| - groupe1:string(nullable = false)| - groupe2:string(nullable = false)| --...
我正在使用MapReduce来处理我的数据。我需要将输出存储在日期分区下。我的排序键是日期字符串。现在如果我在我的自定义分区器类中重写getPartition以返回...
如何使用python有效地填充“缺失时间模式”和“填充它们”特定值?
我想“扩展”我的行:+ ------------- + --------- + ------- + ----- - + |周数|平日|时间|速度| + ------------- + --------- + ------- + ------- + | 1 |星期一| 09.00 | 2 ......
如何在spark mapPartitions()中使生成器工作?
我试图在spark中使用mapPartiton处理大型文本语料库:假设我们有一些看似如下的半处理数据:text_1 = [['A','B','C','D','E '],['F','E','G','A',......
我有6个60gb(未压缩)的大型tsv矩阵,包含2000万行x501列:第一个索引/整数列基本上是行号(所以甚至不需要),500列是......
我想用必要的文献参考来定义数据仓库。我在维基百科上发现,wiki DW是来自一个或多个不同来源的集成数据的中央存储库。他们 ...
我想在Spark SQL表中转置多个列我发现这个解决方案只有两列,我想知道如何使用zip函数和三列varA,varB和varC。进口组织....
我是新手来点燃scala,现在就自己练习。当我导入org.apache.spark.sql.SparkSession时,你可以帮助解决问题无法在scala中解析符号SparkSession吗?
我通过java客户端将数据插入Hbase。但是,突然间Region服务器崩溃了。所以我重新启动了Hbase,之后Hmaster没有运行。当我跑...
如何使用Map对象列表创建Spark SQL Dataframe
我在List(Scala)中有多个Map [String,String]。例如:map1 =地图(“EMP_NAME” - >“Ahmad”,“DOB” - >“01-10-1991”,“城市” - >“迪拜”)map2 =地图(“EMP_NAME” - >“Rahul” ,“DOB” - &...
我有这个数据框+ ---------------- + ---------------------------- - + -------------------- + -------------- + ------------ ---- + | customerid | |事件| A | B ......
我是python中的多处理新手,想知道我是否可以为我的数据分析做这件事。代码:file1 = open('。/ R.csv','r')。readlines()file2 = open('。/ N.csv','r')。readlines()定义...
将数十亿条记录分布在s3中的CSV文件中,推送到MongoDb
我有一个s3存储桶,每天可以在26000csv文件中获得近14-15亿条记录。我需要解析这些文件并将其推送到mongo db。以前只有50到1亿......
我在“hbase”表“hbase_sample”中有行,列族h1,其中有两个值id和name。我想在带有id和name列的hive中创建外部表,我不想写行或键字段。 ...
我有这样的df:Id username age 1 michael。 34 6.迈克。 65 7.斯蒂芬妮。 14 1.米卡尔。 34 6.米克。 65如您所见,用户名...
我在Hive中有2个表:用户和项目,我正在尝试计算每个表的2个特征之 间的余弦相似度,用于2个表之间的笛卡尔积,即交叉连接。周围有......
spark中的flatMap是否像map函数一样,因此不会导致混乱,或者是否会触发shuffle。我怀疑它确实导致了改组。有人可以证实吗?