Kylin 精确去重在用户行为分析中的妙用
作者:史少锋,Apache Kylin committer & PMC,2019/10/11 在上次文章 《如何在 1 秒内做到大数据精准去重》 中,我们介绍了 Apache Kylin 为什么要支持大数据集上的精确去重,以及基于 Bitmap 的精确去重原理等。看到今天的文章标题,你肯定要问,精确去重跟用户行为分析又能有什么关系呢?原来啊,Kylin 采用 Bitmap 完整记录了每个维度组合下的用户集合,利用 Bitmap 提供的或(or)运算方法来高效精准地回答了各种条件下的去重用户数。其实 Bitmap 除了支持或(or)运算外,还支持与(and)运算。因此,稍加扩展,Kylin 就可以基于 Bitmap 的中间结果,轻松实现诸如留存、漏斗等大量使用交集运算的分析,从而非常方便地运用在用户行为、用户画像等领域中。可以说精确去重功能有着一石两鸟的价值,本文将为您介绍如何使用 Kylin 来实现精准的用户行为分析。 示例 先从一个简单的例子说起吧。现在有一个 app 的用户访问记录表 access_log,它包含三个字段:DT (访问日期),User ID(用户标示)和 Page(访问页): DT User ID Page 20190101 100 index.html 20190101 101 search.html 20190101 102 detail.html … …