日志采集

网站数据统计分析之二:前端日志采集是与非

↘锁芯ラ 提交于 2019-12-07 10:41:18
在上一篇《 网站数据统计分析之一:日志收集原理及其实现 》中,咱们详细的介绍了整个日志采集的原理与流程。但是不是这样在真实的业务环境中就万事大吉了呢?事实往往并非如此。比如针对前端采集日志,业务的同学经常会有疑问:你们的数据怎么和后端日志对不上呢?后端比你们多了 N%!技术的同学也会问:你们怎么不打后端记日志呢?后端比你们效率和准确性更高。带着这些疑问今天咱们就来聊聊前端日志采集中的这些是是非非。 1、前端 VS 后端到底哪个准?该用谁? 这应该算是统计分析同学最为关注的问题之一了,到底哪个准我们应该从技术和业务两个角度来看待这个问题。 1.1 从技术架构层面日志分类 日志采集从技术架构层面而言就两种,前端与后端。前端日志采集说白了也就是页面部署统计代码,通过 <img src='/log_xxx.gif?k=v'> 或者 javascript 发送 ajax 请求的方式来发送日志请求。后端一般在 webCGI 中通过日志 API 接口输出日志(比如 java 中 log4j),或者直接 webServer 中打印日志(比如 Tomcat)。那这两种技术方案各有何优劣呢? 1.1.1 前端 JS 采集 优势:轻量,调试友好,可扩展性维护性好 劣势:数据不安全,易丢失,客户端环境复杂兼容成本高 1.1.2 后端服务采集 优势:数据完整性有保证,业务数据安全 劣势