- 赛题背景
Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session。
对于 Session 的理解以及相关指标的计算,其中最重要的两块就是:
(1)Session 应该包含哪些行为事件
(2)Session 如何切割:需设定切割时长,即相邻事件间的时间间隔超出此时长则进行切割,基于动态切割规则计算一系列 session相关指标。需要支持动态切割规则、超时、跨天、跨平台、指定开始事件、指定结束事件等。
- 参赛对象
OLAP Session分析大赛将分商业组及开源组,将分别为互联网/科技公司相关技术团队,以及OLA[技术从业人员和技术爱好者提供竞技交流的平台。
- 时间安排
8月20日 - 9月15日,初赛报名,参赛选手在Demo环境下程序调试
9月15日 - 9月25日,参赛者在服务器环境下进行环境测试
9月25日 - 10月15日,正式环境比赛
10月15日 - 10月20日,参赛者提交算法文档,答辩
10月25日,易观A10数据智能生态大会颁奖及排名公布
- 赛题介绍
通常我们把用户一系列连续的行为,看作一次访问,也称之为session。基于会话的分析,即为session查询分析。
Session查询分析中最重要的两块分别是:
1、 session如何分割。
例如,用户访问您的网站,打开了一个网页,有事离开了电脑。几个小时候回来后继续访问,用户的session访问次数应该算作几 次? 又比如,用户在pc端添加了购物车,在手机端完成了支付,又应该算作几次。
2、 session指标的定义,session分析常见的分析指标有,session访问次数,访问深度、访问时长、跳出率等等
Session分割规则介绍:Session的划分规则分为2类
1、 默认session,即SDK采集数据源时,已经根据一些规则,将用户行为划分为多个session,通过”$session_id”来区分
2、 动态切割,用户可以根据前后2条连续行为的一些属性判断来确认是否切割session。本次大赛需要支持以下动态切割规则,其中超时和跨天为默认条件,其他为可选条件:
ü 超时:即前后2条行为发生时间间隔超过某个阈值。如,30分钟
ü 跨天:即前后2条行为发生的时间不在同一天中
ü 指定开始事件:即当用户发生指定行为时,开始一个新的会话。如 ,登陆
ü 指定结束事件:即当用户发生指定行为时,结束会话。如,结束事件
ü 跨平台:即前后2次行为在不同平台发生的。如,上一条行为JS,下一条iOS
Session常见指标定义
ü 访问用户数(UV)=访问用户的去重数
ü 访问次数=指用户访问应用的总次数,即会话(Session)数
ü 浏览量(PV)=指用户浏览Web/H5页面的总次数,同一个页面访问多次会被重复计
ü 人均访问次数=访问次数/访问用户数(UV)
ü 人均页面浏览量=浏览量(PV)/访问用户数(UV)
ü 人均访问时长=Session时长之和/访问用户数(UV)
ü 单次访问页面浏览量=平均每次访问浏览页面的次数,单次访问页面浏览量=浏览量(PV)/访问次数
ü 单次访问时长=平均每次访问的时长,单次访问时长=总访问时长/会话数
ü 单次访问事件数=平均每次访问的事件数量(包括浏览页面和点击事件),单次访问事件数=总访问事件数/会话数
ü 跳出率=访问了一个页面的Session数/总的Session数。用户进入着陆页就离开用户来到网站后,除了浏览LandingPage之外,没有发生其他任何操作就离开了网站,被视为跳出。用来衡量Landingpage的质量。
分析中其他概念
ü Session属性,一般取会话的首事件的某个属性,作为整个会话的属性
ü 着陆页,落地页、引导页,即会话首页面的url。
ü 时长:我们以会话内下一个事件发生时间作为上个事件的结束时间。会话的退出事件是时长为0。单位为毫秒
- 赛题任务
参赛者根据我们提供的用户行为数据,准确计算出各种场景的下的会话相关指标值。
计算场景举例:
1、 使用默认session,计算出20190501-20190510,每天的会话次数、人均访问时长、退出率
2、 使用超时时间30分钟+跨天的session切割规则,计算出20190501-20190510,每天的会话次数、跳出率。且以 着陆页进行分组。
3、 使用超时时间30分钟+跨天+指定开始事件,的session切割规则计算出20190501-20190510,每天包含某个页面行为的会话 总数,人均访问深度。
- 数据介绍
数据为文本文件格式,具体包含字段有: 分隔符为 tab
(1)用户ID,Long类型
(2)时间戳, 毫秒级别,Long类型
(3)事件code,字符串类型,本次默认全部为"$pageview",页面浏览事件
(4)url,字符串类型,页面的url
(5)平台, 字符串类型
(6)来源, 字符串类型,流量来源
(7) 城市,字符串类型
(8)品牌,字符串类型
(9)购买数量,Int类型
(10) 价格,Double类型
(11) 日期,字符串类型
测试数据总条数7千万左右,日期范围:2019/01/01到2019/01/07。
比赛数据总条数5亿左右,日期范围:2019/05/01到2019/05/15
- 提交格式:
所有题目,默认按日期分组计算,其他维度已经指标根据题目要求计算如:
维度,周期,uv,pv,人均时长等
url1,20190501,300,800,4545
url1,20190502,200,500,4444-
- 数据下载链接
云盘地址:https://pan.baidu.com/s/1HW_8vauDoq6PZnTlUQAc5Q 密码: 8nmm
- 提交内容
(1)算法说明文档或PPT
(2)算法源代码
(3)测试数据的预测结果(可重复提交,但每天只能提交一次,最终结果取最优的一次)
提交地址:dailidong@analysys.com.cn
- 评分方式
计算结果正常的情况下,对用时进行排名,用时少者获胜。
- 参赛指导
数据准确性和算法的要求,需提前说清楚,报名后,会有大赛小助手拉您入群,群内有专门的技术人员进行解答
联系人:Cari 手机&微信:13011177753 邮件:zhangyue@analysys.com.cn