网站统计

使用Hive+MR统计分析网站指标

匿名 (未验证) 提交于 2019-12-02 23:38:02
https://blog.csdn.net/shenfuli/article/details/50034085 网站用户行为分析背景 数据源来自网站渠道用户行为日志,每天产生10G用户日志。产生的日志的特点: (1)每小时生成一个文件,每个文件约50M,每天每台日志采集服务器产生24个文件 (2)生产环境共有8台日志采集服务器,故每天产生日志:8 * (50*24) 约为10G (3)通过shell脚本,对每天采集服务器上的日志文件进行合并形成一个大约1G的文件,命名格式:日期.log。例如: 2015-07-05.log 1.1 数据收集 在”统计电商网站的PV“案例中,我们收集的原始日志文件部分内容如图所示。 “05/Jul/2015:00:01:04 +0800” “GET” “http%3A//jf.10086.cn/m/” “HTTP/1.1” “200” “ http://jf.10086.cn/m/subject/100000000000009_0.html ” “Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; Lenovo A3800-d Build/LenovoA3800-d) AppleWebKit/533.1 (KHTML, like Gecko)Version/4.0 MQQBrowser/5.4 TBS

高并发web网站架构设计

谁说我不能喝 提交于 2019-12-02 17:55:31
千万级 PV 规模高性能高并发网站架构 高并发访问的核心原则其实就一句话“把所有的用户访问请求都尽量往前推”。 如果把来访用户比作来犯的"敌人",我们一定要把他们挡在 800 里地以外,即不能让他们的 请求一下打到我们的指挥部(指挥部就是数据库及分布式存储)。 如:能缓存在用户电脑本地的,就不要让他去访问 CDN/cache。能缓存 CDN/cache 服务器上 的,就不要让 CDN/cache 去访问源(静态 web 服务器)了。能访问静态 web 服务器的,就 不要去访问动态服务器。以此类推:能不访问数据库和存储就一定不要去访问数据库和存储。 高性能高并发高可扩展网站架构访问的几个层次: 第一层: 首先在用户浏览器端,使用 Apache 的 mod_deflate 压缩传输,再比如: expires 功 能,deflate 和 expires 功能利用的好,就会大大提升用户体验效果及减少网站带宽,减少后端 服务器的压力。 提示:有关压缩传输及 expires 功能 nginx/lighttpd 等软件同样也有。 第二层: 静态页面内容缓存,如图片/js/css 等或静态数据 html,这个层面是网页缓存层,比 如 CDN(效果比公司自己部署 squid/nginx/varnish 要好,他们更专业,价格低廉,比如快网 /CC 等,而且覆盖的城市节点更多)。 自己架设 squid

Spark _10_统计网站pv和uv

你离开我真会死。 提交于 2019-12-02 12:55:01
统计网站pv和uv PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量。对于广告主,PV值可预期它可以带来多少广告收入。一般来说,PV与来访者的数量成正比,但是PV并不直接决定页面的真实来访者数量,如同一个来访者通过不断的刷新页面,也可以制造出非常高的PV。 1、什么是PV值 PV(page view)即页面浏览量或点击量,是衡量一个网站或网页用户访问量。 具体的说,PV值就是所有访问者在24小时(0点到24点)内看了某个网站多少个页面或某个网页多少次。PV是指页面刷新的次数,每一次页面刷新,就算做一次PV流量。 度量方法就是从浏览器发出一个对网络服务器的请求(Request),网络服务器接到这个请求后,会将该请求对应的一个网页(Page)发送给浏览器,从而产生了一个PV。那么在这里只要是这个请求发送给了浏览器,无论这个页面是否完全打开(下载完成),那么都是应当计为1个PV。 2、什么是UV值 UV(unique visitor)即独立访客数,指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。 UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。 数据信息: 实例1: 访问pv package ddd.henu.pvuv ​ import org.apache

网站日志统计案例分析与实现

情到浓时终转凉″ 提交于 2019-11-27 08:29:57
1.概要 到这一步,若是按照前面到文章一步走来,不出意外,我想hadoop平台环境应该搭建OK了。下面我以自己工作中实际的案例来梳理一下整个流程。同时参考一些其他的文章来分析,由于很多网站的日志KPI都大同小异,故有些指标直接在文中赘述了。 2.流程 背景 前言 目录 日志分析概述 需求分析 源码 2.1 背景   从2011年开始,中国进入大数据时代如火如荼,以Hadoop为代表的套件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,纷纷向Hadoop靠拢。Hadoop也从小规模的试点和使用,变成了大数据开发的标准。在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过大数据概念的不断创新,推进了Hadoop的发展速度。   如今,Hadoop2.x的出现,使很多企业纷纷主动去接受Hadoop这个平台,因此,作为IT界的开发人员,了解并掌握Hadoop的技能,成为开发人员必备的一项技能。也是今后主流的一种趋势。   注:Hadoop2.x的出现为何引起这么大大反响,这里不做赘述。 2.2 前言   Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10w的PV以上),每天会产生1G以上的Web日志文件。大型或超大型的网站,可能每小时就产生10G的数据量。 对于日志的这种规模的数据

Awstats配置说明

狂风中的少年 提交于 2019-11-26 15:44:42
作为一个基于Perl并以日志作为网站流量分析的工具, Awstats 在设计上表现了强大的应用性。 1.原理 每个服务器可以建立很多个网站,每个网站有一个日志存储地址, Awstats 通过被统计的网站的配置信息获得网站的访问日志,并通过这些日志分析出结果。 因此,我们在对一个网站进行统计之前,必须做以下操作: A.确信将网站的访问信息写入了日志(操作:IIS中右键点击网站->选择“属性”->选择“主目录”选项卡->在“log visits前打钩”->单击“应用”) B.网站的日志属性设置及获取日志储存地址(操作:IIS中右键点击网站->选择“属性”->选择“网站”选项卡->勾选“启用日志目录”->在活动日志中选择“W3C扩展日志文件格式”->单击旁边的“属性”按钮->选择“常规”选型卡->在新日志计划中选择“每天”->记下下面的“日志文件目录”->选择“高级”选项卡->在高级选项卡中勾选:date,time,c-ip,cs-username,cs-method,cs-uri-stem,cs-uri-query,sc-status,sc-bytes,cs-version,cs(User-Agent),cs(Refer))->点击“应用”回到网站属性窗口->点击“应用”: 2.安装perl语言解释器 由于Awstats是perl语言来写的程序,所以必须安装perl语言解释器(下载地址

网站访问量的统计

社会主义新天地 提交于 2019-11-26 11:28:15
< script runat = " server " > void Application_Start( object sender, EventArgs e) { // 在应用程序启动时运行的 System.Data.SqlClient.SqlConnection con = DBConnect.createConnection(); con.Open(); System.Data.SqlClient.SqlCommand com = new System.Data.SqlClient.SqlCommand( " select * from total " , con); int count = System.Convert.ToInt32(com.ExecuteScalar()); con.Close(); Application[ " total " ] = count; Application[ " online " ] = 0 ; } void Application_End( object sender, EventArgs e) { // 在应用程序关闭时运行的代码 System.Data.SqlClient.SqlConnection con = DBConnect.createConnection(); con.Open(); System.Data

访问网站ip地址统计过滤与Linux缺少编译环境解决

家住魔仙堡 提交于 2019-11-26 04:03:08
【访问网站ip地址统计(已去重)实用查询】 (1)统计IP访问量 awk '{print $1}' access.log |sort|uniq |wc -l (2)统计IP重复次数 awk '{print $1}' access.log |sort|uniq -c (3)统计访问量次数最多IP,前10名 awk '{print $1}' access.log |sort|uniq -c|head -n 10 (4)日志中找出访问次数最多的几个分钟 awk '{print $4}' access.log|cut -c 14-18 |sort|uniq -c|sort -nr|head (5)日志中找到访问最多的页面 awk '{print $7}' access.log |sort|uniq -c|sort -nr|head 【缺少编译环境解决】 如果安装出现在下面的错误是缺少编译环境,安装编译源码所需的工具和库。 “ ./configure: error: C compiler cc is not found ” 解决:yum install gcc gcc-c++ ncurses-devel perl 来源: 51CTO 作者: 天使不会KU 链接: https://blog.51cto.com/13520779/2153766

hive 的日志处理统计网站的 PV 、UV案例 与 给合 python的数据清洗数据案例

孤街浪徒 提交于 2019-11-25 21:14:24
一:hive 清理日志处理 统计PV、UV 访问量 二: hive 数据python 的数据清洗 一: 日志处理 统计每个时段网站的访问量: 1.1 在hive 上面创建表结构: 在创建表时不能直接导入问题 create table db_bflog.bf_log_src ( remote_addr string, remote_user string, time_local string, request string, status string, body_bytes_sent string, request_body string, http_referer string, http_user_agent string, http_x_forwarded_for string, host string ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = "(\"[^ ]*\") (\"-|[^ ]*\") (\"[^\]]*\") (\"[^\"]*\") (\"[0-9]*\") (\"[0-9]*\") (-|[^ ]*) (\"[^ ]*\") (\"[^\"]*\") (-|[^ ]*) (\"[^ ]*\")" )