apache-pig 相关问题

Apache Pig是一个分析大型数据集的平台,它包含用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。 Pig程序的显着特性是它们的结构适合于大量并行化,这使它们能够处理非常大的数据集。

如何查看Hadoop上安装的猪版本

我正在尝试检查我的hadoop上安装的PIG版本。我们怎样才能看到Hadoop上安装的猪版本?有什么命令可以看到吗?

回答 3 投票 3

使用Pig将非结构化数据转换为结构化数据

我正在尝试使用PIG构建非结构化数据来进行一些处理。以下是数据样本:Nov 1 18:23:34 dev_id = 03 user_id = 000 int_ip = 198.0.13.24 ext_ip = 68.67.0.14 ...

回答 2 投票 0

找不到(有效)输入数据!在猪

我正在使用Pig加载XML数据。当我发出ILLUSTRATE命令时,我收到一个错误。这就是我在做的事情。使用org.apache.pig.piggybank注册piggybank-0.15.0.jar xml = LOAD'/ xml / data / path'....

回答 1 投票 1

在Pig中使用Aggregate函数

我的输入文件低于a1,1,on,400 a1,2,off,100 a1,3,on,200我只需要在$ 2等于“on”时添加3美元。我已编写如下脚本,之后我不知道该怎么办。加3美元......

回答 2 投票 0

使用PIG进行文本解析

我是PIG的新手,不太了解它。我怎么解析PIG中的文字?读取字段的值有一个位置参数的概念在猪,例如$ 0对应第一个字段同样是...

回答 4 投票 1

如何将关系的属性转换为猪的字符串

c1 = LOAD'hdfs:// localhost:9000 / PigData / patient.txt'使用PigStorage(',')as(age:int,gender:chararray,zipcode:int); c2 = LOAD'hdfs:// localhost:9000 / PigData / att1'使用PigStorage(',')为(att:...

回答 1 投票 0

猪的IN条款

user1,action,aa user2,comedy,cc user3,drama,dd user4,action,aa user5,action,aa user6,comedy,cc user7,action,aa user8,comedy,cc user9,drama,dd user10,action,aa user11,action,aa user12,comedy,cc我想......

回答 1 投票 -2

如何过滤组中的最小不同值?

假设我有一个包含以下列的表(A,B,C)如何在列(A)上编写一个pig语句来创建一个组。然后过滤计数(列B> 100)和计数(不同(...)

回答 1 投票 0

为猪设置eclipse

我正在尝试设置我的eclipse(Mars)来编写一些Pig UDF。我下载了4个不同的JAR,但我仍然遇到问题。以下是我作为外部库添加的4个JAR。猪-0.8.3.jar ...

回答 1 投票 0

如何从猪的文本文件行中转储特定列?

我是pig的新手。我在.txt文件中有我的数据,我想从这个文本文件中检索一个特定的列。这些列是用;在这个文本文件中。例如,如果行是1; 1; 13; 2010 -...

回答 1 投票 0

限制hadoop数据集中的文件(块)数量?

我有一个hadoop数据集被分成太多数据块的问题。鉴于已经存在的hadoop数据集,有没有办法将其块组合成更少但更大的块?有没有 ...

回答 2 投票 3

如何将配置从hive脚本传递到UDF

在pig中,您可以通过UDFContext将配置从pig脚本传递到pig UDF。例如,//在猪脚本中SET my.conf dummy-conf //在UDF java代码中配置conf = UDFContext ....

回答 4 投票 3

过滤PIG LATIN脚本中的列会在空单元格上的其他列中插入数据

好吧,我已经为此完成了所有的谷歌搜索和文档阅读,仍然无法找到解决方案。我从这里下载CSV文件导出:流量崩溃芝加哥我写了一个PIG脚本...

回答 1 投票 0

编译猪移动输出到输入

我正在尝试运行一个嵌入式Pig脚本(嵌入在Python中),我需要获取脚本的输出/结果并将其作为输入反馈给脚本。我确信有一个简单的方法可以做到这一点......

回答 1 投票 0

蜂巢,猪,地图减少用例之间的差异

map-reduce,hive,pig pig之间的区别:它是一种数据流语言,它可以处理任何基本上用于将半结构,非结构化数据转换为结构的数据,以便可以在蜂巢中使用...

回答 4 投票 0

如何使用Pig读取非分隔的JSON?

我有一个json文件,原始文本如下所示:{a:1,b:2,c:3} {a:3,b:3,c:5} {a:3,b:3,c:9做raw = LOAD'jsonfile.text'使用JsonLoader('a:chararry,b:chararray,c:chararry');转储原料;只要 ...

回答 2 投票 1

WritableStringObjectInspector无法强制转换为BooleanObjectInspector

每次我运行一个来自我的java程序的OR条件的hive查询时,我都会收到以下错误,引起:java.lang.ClassCastException:org.apache.hadoop.hive.serde2.objectinspector ....

回答 1 投票 0

计算数据中有多少不同长度的单词,例如,(8,1)(单词,长度)

该函数应该输出一对格式和示例或类似的。要获得Pig中字符串“theWord”的长度,您需要...

回答 1 投票 0

找不到pig-core-h2.jar。做'ant -Dhadoopversion = 23 jar',然后再试一次

我下载了猪0.14.0,我在MAC OSX上运行Hadoop 2.6.0。我在https://github.com/ucbtwitter/getting-started/wiki/Installing-Pig上跟踪了PIG的所有安装步骤。我已经设置了...

回答 4 投票 0

Pig:java.lang.IncompatibleClassChangeError:找到接口org.apache.hadoop.mapreduce.JobContext,但是类是预期的

安装细节:猪版本:0.16 Hadoop:2.7.3 pig -h给出了预期的结果。我试过:ant clean jar-all -Dhadoopversion = 23 - 但它没有帮助。我的Hadoop安装文件夹......

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.