hive常用函数--concat_ws,cast,collect_set,row_number,get_json_object

匿名 (未验证) 提交于 2019-12-02 23:43:01

1.concat_ws(seperator, string s1, string s2...)
功能:制定分隔符将多个字符串连接起来,实现“列转行
例子:常常结合group by与collect_set使用

有表结构a string , b string , c int
数据为
c d 1
c d 2
c d 3
e f 4
e f 5
e f 6
想要得到
c d 1,2,3
e f 4,5,6

语句如下
select a, b, concat_ws(',' , collect_set(cast(c as string)))
from table group by a,b;

CAST()函数的参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。以下例子用于将文本字符串'12'转换为整型:

 SELECT CAST('12' AS int)

3.collect_set去重,去除group by后的重复元素,
第二个是形成一个集合,将group by后属于同一组的第三列集合起来成为一个集合。与contact_ws
结合使用就是将这些元素以逗号分隔形成字符串。


4.row_number

举个例子:employee表,先按照部门进行分组,部门内部按照工资降序排列

SELECTbyORDERBYdescFROMemployee

举个例子:

原本数据

经处理后:

6.get_json_object

第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。
每次只能返回一个数据项。

举例:
data 为 test表中的字段,数据结构如下:

 data = {  "store":         {          "fruit":[{"weight":8,"type":"apple"}, {"weight":9,"type":"pear"}],            "bicycle":{"price":19.95,"color":"red"}          },   "email":"amy@only_for_json_udf_test.net",   "owner":"amy"  } 

get单层值

 hive> select  get_json_object(data, '$.owner') from test;  结果:amy  

get多层值.

 hive> select  get_json_object(data, '$.store.bicycle.price') from test; 结果:19.95 

get数组值[]

 hive> select  get_json_object(data, '$.store.fruit[0]') from test; 结果:{"weight":8,"type":"apple"}

文章来源: https://blog.csdn.net/weixin_38629422/article/details/91948133
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!