apache-pig 相关问题

Apache Pig是一个分析大型数据集的平台，它包含用于表达数据分析程序的高级语言，以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适合于大量并行化，这使它们能够处理非常大的数据集。

在UDF中加载文件

我需要根据 UDF 的评估来填充字段。 UDF 的输入将是输入中的一些其他字段以及 csv 工作表。目前，我的方法...

hadoop apache-pig

回答 1 投票 0

将 AWS 凭证传递给 PigStorage 函数

如何将 AWS 凭证（aws_access_key 和 aws_secret_key）传递给 PIG PigStorage 函数？谢谢

amazon-web-services apache-pig emr

回答 3 投票 0

将猪结果存储在文本文件中

我想将结果存储在文本文件中并按我想要的名称命名。是否可以使用 STORE 功能来做到这一点？我的代码： a = 使用 PigStorage(';') 加载 'example.csv'; b = FOREACH a 生成 $0,$1,$2...

hadoop apache-pig hdfs bigdata

回答 2 投票 0

错误 org.apache.pig.tools.grunt.Grunt - 错误 1200：<line 16, column 46> 不匹配的输入“，”期望 LEFT_PAREN

grunt>joined_data=JOINfiltered_featuresBY（商店，日期），销售额BY（商店，日期）； 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200： grunt> joined_data = JOIN filtered_features BY (store, date), sales BY (store, date); 2024-04-02 13:19:05,110 [主要] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200: 不匹配的输入 ',' 期待 LEFT_PAREN 日志文件详细信息：/home/vboxuser/Documents/DDPC/EX9/q2/2/pig_1712044037517.log 猪堆栈跟踪错误 1200：输入“，”不匹配，需要 LEFT_PAREN 解析失败：输入“,”不匹配，需要 LEFT_PAREN at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:244) at org.apache.pig.parser.QueryParserDriver.parse(QueryParserDriver.java:182) at org.apache.pig.PigServer$Graph.validateQuery(PigServer.java:1792) at org.apache.pig.PigServer$Graph.registerQuery(PigServer.java:1765) at org.apache.pig.PigServer.registerQuery(PigServer.java:708) at org.apache.pig.tools.grunt.GruntParser.processPig(GruntParser.java:1110) at org.apache.pig.tools.pigscript.parser.PigScriptParser.parse(PigScriptParser.java:512) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:230) at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:205) at org.apache.pig.tools.grunt.Grunt.run(Grunt.java:66) at org.apache.pig.Main.run(Main.java:564) at org.apache.pig.Main.main(Main.java:175) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:566) at org.apache.hadoop.util.RunJar.run(RunJar.java:244) at org.apache.hadoop.util.RunJar.main(RunJar.java:158) ====================================================== ================================= 有括号但还是错误Left Paran 如果我提到列号，它就会起作用 grunt> join_data = JOIN Filtered_features BY ($0, $2), sales BY ($0, $1);

hadoop mapreduce apache-pig

回答 1 投票 0

我如何找到猪中特定国家（例如美国）的每个专业计数和年龄计数

这就是例子。由此我想找到每个专业计数和每个年龄组计数。 filter_data = 按 loc=='us' 过滤客户； grunt> grp_data1 = 按年龄分组filter_data...

hadoop apache-pig

回答 1 投票 0

如何在过滤掉不同键的同时对 Apache Pig 中的值列进行计数

我正在尝试按product_id计算订购产品的总数（数量）。数据看起来像这样。（产品 ID、数量）这也是 (11, 5) (11, 2) (11, 1) (12, 9) (12, 1) (13, 5) ...

apache-pig

回答 1 投票 0

Pig 使用 PigStorage(',') 加载地图

我一直在尝试加载数据（CSV），例如： txt = IPHONE,GA,US,CN,[bucket#A,type#user,jailbreak#No],app_talkingtom,ios7 使用 Apache Pig 加载语句： raw = 使用 PigStorage(',') 加载文本 as (

csv dictionary apache-pig

回答 2 投票 0

GOOGLE COLAB 中的 PIG 和 HIVE 查询

有什么方法可以在 google colab 中编写配置单元查询和猪拉丁脚本吗？

python google-colaboratory apache-pig hiveql

回答 1 投票 0

我需要从PIG HADOOP中的同一列过滤2个条件

我是猪的新手。我想要实现的目标是从 1 个表中获取 2 个值，并查找某个 id 是否同时具有这两个项目。例如产品表产品名称豆腐井仓寿司订购...

hadoop apache-pig

回答 2 投票 0

在Cloudera中使用serde加载JSON文件

我正在尝试使用具有此包结构的 JSON 文件： { “用户id”：“kim95”， “类型”：“书”， "title": "现代数据库系统：对象模型、互操作性及其他。", ”