bigdata 相关问题

大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。

如何根据作为映射的列值过滤spark数据框条目

我有一个像这样的数据框+ ------- + ------------------------ + | key |数据| + ------- + ------------------------ + | 61 | [a-> b,c-> d,e-> f] | | 71 | [a-> 1,...

回答 1 投票 1

如何在Spark sql的like子句中拥有100个以上任意大小的单词?

我需要在所有列中禁止来自数据集中API的一组关键字。我目前有喜欢类似于以下条款。 SPARK版本:2.1.0,其中lower(c)不喜欢'%gun%'...

回答 1 投票 0

Hadoop:无法使用python连接到HDFS(Hadoop)

我正在尝试使用Windows10中的python jupyter工具连接到具有Ubuntu的VM中的HDFS。任何人都可以通过以下连接错误帮助我。谢谢。使用的软件包:-...

回答 1 投票 1

CASE语句-同一条件适用于多个情况

[查询:当app_id IN('ICTO-115')然后是'CASH_EQUITY'时选择情况,当app_id IN('ICTO-115')然后是'FX'结束时作为PRODUCT_LINE,总和(违约)为...的总和...

回答 2 投票 1

BigQuery Google Analytics(分析)自动化问题

[你好:有人可以帮我解决这个问题。我们所有的广告系列都以日期“ 20200312_NEWS _.....”开头。我希望能够获得7天(例如2020-03-12至...

回答 1 投票 0

使用PySpark将嵌套的JSON解析为Spark DataFrame

我真的很乐意为使用PySpark-SQL解析嵌套JSON数据提供一些帮助。数据具有以下架构(出于保密目的而编辑为空白...)架构根|-...

回答 1 投票 0

从Postgresql向熊猫/ Python导入1100万行

我正在尝试从AWS服务器上托管的PostgreSQL数据库加载1100万条记录。我尝试使用pandas read_sql,并且在4小时内得到了结果。我的电脑上有32 GB的RAM ...

回答 1 投票 0

将Apache Hudi与Python / Pyspark结合使用

有人在Pyspark环境中使用Apache Hudi吗?如果可能,是否有任何代码示例可用?

回答 1 投票 0

基于列R中的部分匹配创建新变量

我正在尝试根据类似于以下数据的东西在data.frame中创建一个新变量:df

回答 2 投票 1

在日期/时间范围内的查询配置单元分区表

我的蜂巢表按年,月,日,小时进行分区现在我想从2014-05-27到2014-06-05提取数据?我知道一个选择是在纪元(或yyyy-mm-dd-hh)上创建分区,然后...

回答 3 投票 5

有人知道我如何使用R中的大数据吗?

在RStudio中分析推文:我的csv文件包含4,000,000条推文,其中包含五列:screen_name,text,created_at,favourite_count和retweet_count。我正在尝试确定...

回答 1 投票 1

如何在Python中使用庞大的列表字典扩展操作?

我正在处理python中的“大数据”问题,我真的在努力寻求可扩展的解决方案。我目前拥有的数据结构是一个庞大的列表字典,包含数百万个键和...

回答 1 投票 1

确定点在哪个多边形中,然后将该多边形的名称作为新列应用于大熊猫数据框

我有一个大的数据框,其中包含来自世界各地的各种船只的位置数据。 imoNois船舶标识符。下面是数据框的示例:我需要做的是在末尾添加一列...

回答 1 投票 0

仅了解Appscript的定价,而不是了解我们现有GCP的整个GSuite的价格

[Pretext:我是一名测试人员,正在研究一个项目,我们将从GCP中的Spark迁移到BigQuery,我想在我的系统中创建一个测试框架,其功能类似于Robot框架。我发现...

回答 1 投票 1

Data Lake不变性规则的例外

数据湖应该是不变的:重要的是,放入湖中的所有数据都应在时间和地点上有明确的出处。每个数据项都应该清楚地知道它来自哪个系统...

回答 1 投票 0

NameNode HA与HDFS之间的区别?

我对hdfs的高可用性和名称节点感到困惑,这两件事是相同的还是不同的?

回答 2 投票 1


将特定元素与数据帧相乘,假设特定元素与R中CSV文件的文件名相同

我正在尝试解决大数据问题,这涉及2个不同的CSV文件。如果CSV1的文件名与CSV2中的某个元素匹配,我会将CSV1的每个元素乘以该特定元素...

回答 1 投票 0

处理内存中的大量文本数据

我正在尝试在具有64 GB RAM的Ubuntu系统上处理约20GB的数据。该步骤是一些预处理步骤的一部分,以生成用于训练ML算法的特征向量。原始的...

回答 1 投票 1

运行spark提交时出现内存不足错误

我正在尝试将60gb的表数据加载到spark python数据帧,然后将其写入配置单元表。我已经设置了驱动程序内存,执行程序内存,最大结果大小足以处理数据。 ...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.