分隔符

数据处理奇技巧——hive篇

自古美人都是妖i 提交于 2020-01-17 06:02:48
1、pmod(int a, int b):返回a除以b的余数的绝对值; cast(aaa as int):将string转化成int; cast(aaa as decimal(10, 2)):将string转化成float,保留两位小数; 2、trim(String A):去除A两侧的空格; ltrim(String A):去除左边空格; rtrim(String A):去除右边空格 select trim('abc') from lxw_dual; 3、concat_ws (separator,str1,str2,...) :根据固定的分隔符连接后侧字符串; concat_ws第一个参数是其它参数的分隔符,分隔符的位置放在要连接的两个字符串之间,分隔符可以是一个字符串,也可以是其他参数。 select concat_ws(',','11','22','33');  11,22,33 4、collect_list/collect_set列转行函数: 在本地文件系统创建测试文件: 存储在hive表中: 按用户分组,取出每个用户每天看过的所有视频的名字: 上面结果中,由于霸王别姬李四看了两遍,所以列表中存在重复,去重处理collect_set() 突破group by限制: 还可以利用collect来突破group by的限制,hive中在group

Spring常用工具类

走远了吗. 提交于 2020-01-16 16:42:13
链接 https://www.jianshu.com/p/ee0951536fd3 org.springframework.util.ObjectUtils org.springframework.util.StringUtils org.springframework.util.CollectionUtils org.springframework.util.Assert org.springframework.util.ObjectUtils org.springframework.util.ObjectUtils` 有很多处理 null object 的方法. 如 nullSafeHashCode, nullSafeEquals, isArray, containsElement, addObjectToArray, 等有用的方法 1.1 获取对象基本信息 // 获取对象的类名。参数为 null 时,返回"null" static String nullSafeClassName(Object obj) // 获取对象 HashCode(十六进制形式字符串)。参数为 null 时,返回 0 static String getIdentityHexString(Object obj) // 获取对象的类名和 HashCode。 参数为 null 时,返回 “” static

QT界面开发-Qt 使用QAxObject保存excel出错,使用双反斜线\\\\路径分隔符【转载】

浪尽此生 提交于 2020-01-16 10:36:17
Qt 使用QAxObject读取excel和保存excel时,必须保证文件路径是绝对路径,而且需要使用\\分隔符,不能使用/分隔符; 如果使用/分割符号,运行pWorkBook->dynamicCall("SaveAs(const QString &)","F:/test.xlsx");会出现弹出保存文件对话框. 如果调用Qt保存对话框QFileDialog::getSaveFileName()得到的文件路径可能是/分隔符,这时就需要使用QDir::toNativeSeparators(fileName)将分隔符变成\\ pWorkBook->dynamicCall("SaveAs(const QString &)",QDir::toNativeSeparators(fileName)); 来源: https://www.cnblogs.com/nxopen2018/p/12199848.html

awk的使用方法

守給你的承諾、 提交于 2020-01-16 04:09:57
awk 使用方法 awk ‘{pattern + action}’ {filenames} 尽管操作可能会很复杂,但语法总是这样,其中 pattern 表示 AWK 在数据中查找的内容,而 action 是在找到匹配内容时所执行的一系列命令。花括号({})不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式,用斜杠括起来。 awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。 通常,awk是以文件的一行为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。 1.命令行方式 awk [-F field-separator] ‘commands’ input-file(s) 其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。 在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。 2.shell脚本方式 将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,一遍通过键入脚本名称来调用。 相当于shell脚本首行的:#!/bin/sh 可以换成:#!

Note 4 -- sas中数据步常用语句

天大地大妈咪最大 提交于 2020-01-15 09:45:59
《SAS统计分析实用宝典》学习摘要 一、赋值语句 在sas系统中,赋值语句用于将表达式计算的值赋予指定的变量,其调用的基本格式为: 变量 = 表达式 其中,变量可以是一个sas系统中已经存在的变量而对其原值进行覆盖,也可以是用户在此新建的一个变量;但需要注意的是右边表达式中所有涉及的变量均要是已经存在的且已经被赋值的变量。 如在Note3中的语句: avg = ( math + chinese + english + physics + chemistry ) / 5 ; 二、input 语句 input 语句用于向sas中读入数据的模式限制,有列表模式和列模式两种。 1、列表模式 列表模式的Input语句基本格式: input 变量名 [ $ ] [ 选项 ] [ @ / @@ ] 变量名:为人为设定的数据各列的名称。 [$]:表示如果该列(字段)是字符串类型的则要在变量名后加上美元号。 [选项]:可用于设置输入数据的格式。 input语句由于是在代码界面输入数据的,故其默认的变量分隔符为空格(因为输入时可以人为输入),对于其他分隔符(逗号,制表符等),需要通过infile语句进行设置,设置的方式为“ infile 文件路径 dlm = ‘分隔符’ ”或“ infile cards dlm = ‘分隔符’ ”。 读取的字符型数据的默认长度为8个字符,如果超过

2020.1.10 url中的参数及其获取url上的信息以及视图层的讲解

别说谁变了你拦得住时间么 提交于 2020-01-14 02:10:25
1.1url中的参数 在Url后边用?开始 ,键与值用等号链接,每对键值用&号区分,如: http://127.0.0.1:8000/app?name=dewei&age=30 在路由的参数中用分隔符分开,如: http://127.0.0.1:8000/aoo/dewi/30 1.2django2的url变量类型 字符串类型:匹配任何非空字符串,但不包含斜杠,在不指定类型的前提下,默认字符串类型 示例: str:name 整形:匹配0和正整数 int:age slug: 可理解为注释,后缀或附属等概念 slug:ady uuid:匹配一个uuid格式的对象 uuid:uid 类似xxx-xx-xx 1.3支持url类型的方法 from django.urls import path 2.0以后新方法 from django.conf.urls import url 2.0以前方法,不支持参数中的类型,只能通过正则表达式的方法进行基本匹配 两种方法写法不同,不能兼容 1.4 1.5为url设置别名 path(‘add’,view_function, name=‘add’) 别名可以在重定向和模板定义的时候直接用别名代替 视图读取参数 ?形式读取(前文)-> request.GET.get(参数名) 以分隔符形式的参数 def index(requsst,参数名,参数名) print

环境变量

一个人想着一个人 提交于 2020-01-13 04:45:02
什么是环境变量?      环境变量,是操作系统中一种特殊的对象,该对象可以为操作系统提供信息。环境变量分为环境变量名 与环境变量值。变量名用来区别于其他的环境变量,而变量值就是给操作系统提供的信息。环境变量可以具 有多个值,多个值之间使用指定的符号分隔。不同的操作系统,分隔符也是不同的。例如,Windows系统的 分隔符为“;”,而Linux系统的分隔符为“:”。 电脑中的环境变量说白了就是你在启动电脑的时候或某个用户的时候自动启动的东西。 查看环境变量   Windows操作系统     命令行查看:set     通过计算机属性查看       控制面板-->系统-->高级系统设置-->环境变量进行查看   Path       尽管操作系统中存在很多变量,但与开发关联最密切的就是PATH环境变量。     通过命令行 path可以查看path变量。 Path环境变量的作用   path是路径变量,它的作用是告诉系统在当前目录找不到所需文件时,就按path指定的路径查找。    当前目录与环境变量配置的目录孰先孰后?     在启动一个程序时,会先在当前目录下查找该程序文件,如果有就直接执行;否则,再去环   境变量配置的目录下查找是否存在该文件,有就执行。   Classpath是java编译器专用的变量,用于告诉java编译器去哪儿找类文件     

awk命令详解

我与影子孤独终老i 提交于 2020-01-12 20:16:45
awk 工作原理和基本用法说明 常见选项: -F “分隔符” 指明输入时用到的字段分隔符 -v var=value 变量赋值 动作:printf 说明: 逗号分隔符 输出item可以字符串,也可是数值;当前记录的字段、变量或awk的表达式 如省略item,相当于print $0 范例: [ root@I | 158 | ~ ] #awk -F: '{print $1,$3}' /etc/passwd root 0 bin 1 daemon 2 adm 3 lp 4 sync 5 shutdown 6 halt 7 mail 8 operator 11 games 12 ftp 14g nobody 99 [ root@I | 160 | ~ ] #awk -F: '{print $1"\t"$3}' /etc/passwd root 0 bin 1 daemon 2 adm 3 lp 4 sync 5 shutdown 6 halt 7 mail 8 operator 11 games 12 ftp 14 [ root@I | 162 | ~ ] #grep "^UUID" /etc/fstab UUID = 7e896ac6-4ee4-4533-ad7e-578c71560735 / xfs defaults 0 0 UUID = a063884c-6421-4581-841b

for语句中的几种分隔符形式

主宰稳场 提交于 2020-01-12 19:38:50
其实for /l %i in (1,1,99) do @echo %i 括号中间的分隔号有多种 形式如下: for /l %i in (1,1,99) do @echo %i for /l %i in (1 1 99) do @echo %i for /l %i in (1;1;99) do @echo %i for /l %i in (1=1=99) do @echo %i for /l %i in (1<tab>1<tab>99) do @echo %i <tab>----tab键 9527 于 2006-12-22 发表于中国DOS联盟 来源: https://www.cnblogs.com/sfqas/p/12181867.html

Hive的基本用法

巧了我就是萌 提交于 2020-01-12 16:57:06
一、创建表 hive建表的时候默认的分割符是'\001',若在建表的时候没有指明分隔符,load文件的时候文件的分隔符需要是'\001'; 若文件分隔符不是'001',程序不会报错,但表查询的结果会全部为'null'; 1、建表的时候指定分隔符: create table pokes(foo int,bar string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile; load data local inpath '/root/pokes.txt' into table pokes; 2、替换分隔符 待导入的文件的分隔符与表的分隔符不一致,或者hive导出文件的分隔符需要替换: hive建表的时候虽然可以指定分隔符,不过用insert overwrite local directory这种方式导出文件时,字段的分隔符会被默认 设置为\001,一般都需要将字段分隔符转换为其它字符,可以使用如下命令 sed -e 's/\x01/\t/g' file 二、DDL操作 创建表 hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites