大数据是处理极端数据集的概念。问题可能倾向于与基础设施,算法,统计数据和数据结构相关。
我有一个像这样的数据框+ ------- + ------------------------ + | key |数据| + ------- + ------------------------ + | 61 | [a-> b,c-> d,e-> f] | | 71 | [a-> 1,...
如何在Spark sql的like子句中拥有100个以上任意大小的单词?
我需要在所有列中禁止来自数据集中API的一组关键字。我目前有喜欢类似于以下条款。 SPARK版本:2.1.0,其中lower(c)不喜欢'%gun%'...
Hadoop:无法使用python连接到HDFS(Hadoop)
我正在尝试使用Windows10中的python jupyter工具连接到具有Ubuntu的VM中的HDFS。任何人都可以通过以下连接错误帮助我。谢谢。使用的软件包:-...
[查询:当app_id IN('ICTO-115')然后是'CASH_EQUITY'时选择情况,当app_id IN('ICTO-115')然后是'FX'结束时作为PRODUCT_LINE,总和(违约)为...的总和...
BigQuery Google Analytics(分析)自动化问题
[你好:有人可以帮我解决这个问题。我们所有的广告系列都以日期“ 20200312_NEWS _.....”开头。我希望能够获得7天(例如2020-03-12至...
使用PySpark将嵌套的JSON解析为Spark DataFrame
我真的很乐意为使用PySpark-SQL解析嵌套JSON数据提供一些帮助。数据具有以下架构(出于保密目的而编辑为空白...)架构根|-...
从Postgresql向熊猫/ Python导入1100万行
我正在尝试从AWS服务器上托管的PostgreSQL数据库加载1100万条记录。我尝试使用pandas read_sql,并且在4小时内得到了结果。我的电脑上有32 GB的RAM ...
将Apache Hudi与Python / Pyspark结合使用
有人在Pyspark环境中使用Apache Hudi吗?如果可能,是否有任何代码示例可用?
我的蜂巢表按年,月,日,小时进行分区现在我想从2014-05-27到2014-06-05提取数据?我知道一个选择是在纪元(或yyyy-mm-dd-hh)上创建分区,然后...
在RStudio中分析推文:我的csv文件包含4,000,000条推文,其中包含五列:screen_name,text,created_at,favourite_count和retweet_count。我正在尝试确定...
我正在处理python中的“大数据”问题,我真的在努力寻求可扩展的解决方案。我目前拥有的数据结构是一个庞大的列表字典,包含数百万个键和...
确定点在哪个多边形中,然后将该多边形的名称作为新列应用于大熊猫数据框
我有一个大的数据框,其中包含来自世界各地的各种船只的位置数据。 imoNois船舶标识符。下面是数据框的示例:我需要做的是在末尾添加一列...
仅了解Appscript的定价,而不是了解我们现有GCP的整个GSuite的价格
[Pretext:我是一名测试人员,正在研究一个项目,我们将从GCP中的Spark迁移到BigQuery,我想在我的系统中创建一个测试框架,其功能类似于Robot框架。我发现...
数据湖应该是不变的:重要的是,放入湖中的所有数据都应在时间和地点上有明确的出处。每个数据项都应该清楚地知道它来自哪个系统...
将特定元素与数据帧相乘,假设特定元素与R中CSV文件的文件名相同
我正在尝试解决大数据问题,这涉及2个不同的CSV文件。如果CSV1的文件名与CSV2中的某个元素匹配,我会将CSV1的每个元素乘以该特定元素...
我正在尝试在具有64 GB RAM的Ubuntu系统上处理约20GB的数据。该步骤是一些预处理步骤的一部分,以生成用于训练ML算法的特征向量。原始的...
我正在尝试将60gb的表数据加载到spark python数据帧,然后将其写入配置单元表。我已经设置了驱动程序内存,执行程序内存,最大结果大小足以处理数据。 ...