我有几百万个网址,看起来像:
www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld
我想摆脱网址查询,以便它们看起来像:
www.wikipedia.com/helloworld
我怎样才能做到这一点?使用正则表达式是否安全?我应该使用parse_url
代替(Hive)吗?
谢谢!
你可以使用parse_url
函数与http://
或https://
串联到现有列,并获得HOST
和PATH
值连接它们以获得所需的结果。
select CONCAT(parse_url(concat('http://',col),'HOST'),
parse_url(concat('http://',col),'PATH')
)
from tbl