我有一个带有2列的文件,第一列带有ID,第二列带有长文本,我需要知道如何为每个ID计算字数。例如,如果我有这两行:
id | line
(1, This country is beautiful)
(2, I would love to have a cup of tea)
The answer I need is:
(1, 4)
(2, 9)
我已经阅读了很多有关此的评论,但是每个人都保留每个单词的总数或单词的总数,而不保留行的ID。
如果有人可以帮助我,我将不胜感激。
类似:
FOREACH row GENERATE
id,
COUNT(STRSPLITTOBAG(line, " "));
这应该占用每一行,产生所需的ID字段,然后根据分隔符(此处为“”值)将文本拆分为袋子类型,其中COUNT函数计算袋子中的物品数。