数据分析能力

八大数据分析模型之——粘性分析(六)

本秂侑毒 提交于 2020-04-07 07:27:52
一、深刻理解留存 对大多数产品而言,我们会用留存来整体评估产品的健康度,你也可以理解为,留存是在“某一天有多少人使用”的维度下进行的计算,它统计了来自同一群人,放在时间的跨度下,计算每一天回访用户占这群人的百分比。以新增留存为例,某一天或一段时间新增的用户,第2天还有多少人使用(次日留存),隔2天还有多少人使用(2天后留存),隔了7天还有多少人使用(周留存),通常我们会以此来判断产品留存用户的能力,以及用户的价值。 图1:7日留存 关于留存,我们上周进行了详细的解读, 点我回顾 。 二、粘性:以用户视角,科学评估产品留存能力 从精细化运营的角度来看,你可能有过这样的疑问,在某一段时间活跃的用户为用户群中: 隔7天来的用户有多少? 有多少用户是中间6天一天都没来? 有多少用户是连续访问了7天? 第30天来的用户中,有多少中间29天没有访问过? 有多少用户是有连续访问的? 有多少用户又是每周都来2-3天的? 他们分别占比多少? 如果要整体评估产品健康度,我们认为,你可能还需要知道:“一个人使用了几天”,也即很多产品一直无法衡量的维度:粘性。因为由粘性你可以知道:一款产品,用户一个月使用几天,使用大于1天的有多少,使用大于7天的有多少,你也可以再扩展到周的维度,一周使用大于2天的有多少,一周使用大于5天的有多少?以此来综合评估产品的健康度。 当我们将这一模型进行可视化, 如下图,选择

八大数据分析模型之——自定义留存分析模型(五)

早过忘川 提交于 2020-04-06 20:17:20
诸葛君说:在流量越来越贵背景下,留住老用户显得愈发重要,对于用户而言,留存率越高,说明产品对用户的核心需求把握的越好,用户对产品产生强烈的依赖。对于产品而言,留存率越高,说明产品的活跃用户越多,转化为忠实用户的比例会越大,越有利于产品变现能力的提升。 一、留存定义和公式 定义:满足某个条件的用户,在某个时间点有没有进行回访行为 公式:若满足某个条件的用户数为n,在某个时间点进行回访行为的用户数为m,那么该时间点的留存率就是m/n 以我们常用的指标举个例子:“新增用户日留存”,就是某天新来的用户,第二天打开app或网站的比例,第三天打开app或网站的比例,第七天打开app或网站的比例,第N天打开app或网站的比例。 图1:新增用户留存 这一指标就是N-day留存,即第几日留存,这里的“日”可以是“周”,也可以是“月”,大家现在普遍认识的用户留存,一般都是“N-day”留存了。 除了N-day留存,业内常见的留存分析方式还有“Unbounded留存”、“Bracket留存”,这3类留存的区别就在于时间条件的差异,具体关注哪种留存,需要根据业务来定。 -Unbounded留存(N天内留存) Unbounded留存就是我们常说第N日内留存,N-day留存是只计算第N天完成回访行为的用户,Unbounded留存会累计计算N天内所有完成过回访行为的用户。 -Bracket留存

Impala和Hive的关系(详解)

旧城冷巷雨未停 提交于 2020-03-30 15:11:06
Impala和Hive的关系    Impala是基于Hive的大数据实时分析查询引擎 ,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。 与Hive的关系   Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数 据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。 Impala与Hive在Hadoop中的关系如下图 所示。 Hive适合于长时间的批处理查询分析 , 而Impala适合于实时交互式SQL查询 ,Impala给数据分析人员提供了快速实验、验证想法的大数 据分析工具。可以先使用hive进行数据转换处理,之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。              Impala相对于Hive所使用的优化技术 1、没有使用 MapReduce进行并行计算,虽然MapReduce是非常好的并行计算框架,但它更多的面向批处理模式,而不是面向交互式的SQL执行。与 MapReduce相比:Impala把整个查询分成一执行计划树,而不是一连串的MapReduce任务

(一)数据分析-学前课

夙愿已清 提交于 2020-03-26 09:44:13
为什么需要学七周 数据思维、业务知识、Excel、数据可视化、SQL、统计学、Python 数据分析师一门交叉领域学科,既可以使用Excel完成基础的数据报告,也可以用Python深入挖掘。真正决定上限的是能力, 而不是单纯的工具。 数据分析的结构层次: 1、底层数据的手机/产品端收集 用户行为-原始数据 2、数据业务化/产品需要什么样的数据? 原始数据-加工数据 3、数据可视化/产品的表现如何? 加工数据-可视化数据/信息 4、数据决策和执行/怎么让产品更好? 可视化数据/信息-数据决策 5、数据模型/产品开始自动化和系统化地运营 数据决策-数据产品/应用 6、数据战略/指导未来 数据工具-数据体系/战略 学习方法: 业务思维80%+数据能力60%+工具技巧40% 阶段式学习+解决工作中的问题+温故知新+输出 来源: https://www.cnblogs.com/jennifer224/p/12572140.html

PMP工具与技术集之数据分析技术汇总及对比

泄露秘密 提交于 2020-03-20 13:39:06
在PMBOK第六版知识体系中,数据分析技术是一个重要的工具技术集,这里面最常见的是“备选方案分析”,出现的概率非常高。除此之外它还尴尬20多个分析方法,接下来我们用这篇文章为大家归纳总结。 1、PMP培训 备选方案分析: 用于评估 实现项目章程中所述的需求和目标的 各种方法 。比较不同的资源能力或技能水平、进度压缩技术、不同工具,以及关于资源的创建、租赁或购买决策。有助于提供在定义的制约因素范围内执行项目活动的最佳方案; 2、 PMP培训 成本效益分析:出现偏差时确定最节约成本的纠正措施;用来估算备选方案优势和劣势的财务分析工具; 帮助项目经理确定规划的质量活动是否具有成本有效性。 在项目成本出现差异时确定最佳纠正措施 对质量活动进行成本效益分析符合质量要求,可以:减少返工、降低成本、提升相关方满意度; 3、 PMP培训 挣值分析EVM:对范围、进度、成本绩效进行综合分析;用于评价偏离初始项目基准的程度。 绩效测量指标(CV SV CPI SPI)用于评价偏离初始基准的程序。 计划价值PV:某时间点,应该已经完成的工作;PV的总和为绩效测量基准PMB; 总的PV称为完成预算BAC挣值EV:已完成工作的经批准的预算; 实际成本AC:执行活动实际发生的成本,是为完成与EV对应工作而发生总成本。 AC没上限是所有实际成本 4、 PMP培训 根本原因分析RCA:是确定引起偏差

软工实践2019_第一次作业

╄→гoц情女王★ 提交于 2020-03-03 02:19:36
初心 当初为什么报 计算机科学与技术 这个专业? 由于地处偏远,再加上学校的管理制度影响,我在高中时期信息渠道较为闭塞,算是一个短见薄识的人。那时候我从书本上了解政治和人文方面的知识更多,而关于IT行业的信息知之甚少。虽然在小学时候家里就有了电脑,但心思好像都花在了娱乐上emm。选择计算机是兴趣使然也算是折衷的结果。 当初对 计算机科学与技术 这个专业的期待和想象是什么? 了解掌握生活中触及到的实用的互联网功能。由于当时AlphaGo刚击败柯洁,所以对人工智能也充满好奇心。 当初希望自己是如何投入这个专业的学习的? 大家肯定都会说:“一开始谁不想全力以赴”。但实际做的总是配不上心里想的,或许是心智还不成熟的原因吧。还是要硬性要求自己,加强行动力。 曾经做过什么准备,或者立下过什么FLAG吗? 当时算是没心没肺,只觉得随波逐流便好,现在更要迎难而上,不能退缩。 我的简历 昵称 Rei 喜好 🏀,🏃‍,📚 当前值 能力 python基础技能,机器学习入门 技术 掌握部分数据分析算法 获奖经历 NULL 预期值 能力 补全信安方面的基础知识 技术 抓紧时间入门node.js 和javascript 成果 想要拥有一个属于自己的数据分析平台 我目前最想学的技术 大数据安全分析 组装个人专属机┭┮﹏┭┮ 来源: https://www.cnblogs.com/NiftyChen/p

大数据案例分析

可紊 提交于 2020-02-06 19:56:52
摘自 https://www.cnblogs.com/ShaYeBlog/p/5872113.html 一、大数据分析在商业上的应用 1、体育赛事预测 世界杯期间,谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。 “在百度对世界杯的预测中,我们一共考虑了团队实力、主场优势、最近表现、世界杯整体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联网,随后我们再利用一个由搜索专家设计的机器学习模型来对这些数据进行汇总和分析,进而做出预测结果。”--- 百度北京大数据实验室的负责人张桐 2、股票市场预测 去年英国华威商学院和美国波士顿大学物理系的研究发现,用户通过谷歌搜索的金融关键词或许可以金融市场的走向,相应的投资战略收益高达326%。此前则有专家尝试通过Twitter博文情绪来预测股市波动。 理论上来讲股市预测更加适合美国。中国股票市场无法做到双向盈利,只有股票涨才能盈利,这会吸引一些游资利用信息不对称等情况人为改变股票市场规律,因此中国股市没有相对稳定的规律则很难被预测,且一些对结果产生决定性影响的变量数据根本无法被监控。 目前,美国已经有许多对冲基金采用大数据技术进行投资,并且收获甚丰

商业智能学习笔记

好久不见. 提交于 2020-01-11 02:29:32
商业智能 ,又称 商务智能 ,英文为 Business Intelligence ,简写为 BI 。 商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具 。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而 商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策 。为了 将数据转化为知识 ,需要利用 数据仓库 、 联机分析处理( OLAP )工具 和 数据挖掘 等技术。因此,从技术层面上讲,商业智能不是什么新技术,它 只是数据仓库、 OLAP 和数据挖掘等技术的综合运用 。 商业智能的概念于 1996 年最早由加特纳集团( Gartner Group )提出,加特纳集团将商业智能定义为: 商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定 。 商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处 。 可以认为, 商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力( insight ),促使他们做出对企业更有利的决策 。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成

一位资深程序员面试Python工程师的岗位心得和历程【新手必须】

情到浓时终转凉″ 提交于 2020-01-09 20:26:03
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:程序员阿牛 说一些面试的心得体会: 1、简历制作 我做了两份简历,用两个手机账号,两个简历名字,分别在各个招聘网站投了双份简历,一个是数据分析的简历、一个是web全栈开发的简历,我真正接触python快2年,不管是学习还是工作学到的东西,这两年大概掌握了(前端+django+爬虫+数据分析+机器学习+NLP+Linux)技术,技术水平自我评价一般,够日常一般使用,基于自己掌握的技术可以分成2方面,web和数据分析,所以为了尽快找到工作,就做了web全栈开发+数据分析(含爬虫)2份简历,同时投递 2、面试安排 疯狂投简历,2个账号多个平台同时投,每天接到2-4个面试邀约电话,每天安排2到3家面试,一般上午1家,下午的话一般我尽量安排离得近的公司面试,2点一家,4.30一家,基本时间上都还来得及,只不过这样确实比较赶 3、公司及面试情况 邀约面试的电话,从数量来看,涵盖web开发(和web开发+数据分析算法建模)的面试邀约更多,纯数据分析/算法的面试较少,数据分析面试少的原因,一方面可能自己简历写的项目不多,而且学历本科也没多大优势,另一方面可能实际需求上确实web岗位多,纯分析岗位少,5天面试了11家公司,拿到offer有2家,等最终复试的还有2家

一位资深程序员面试Python工程师的岗位心得和历程【新手必须】

独自空忆成欢 提交于 2019-12-07 14:48:18
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:程序员阿牛 说一些面试的心得体会: 1、简历制作 我做了两份简历,用两个手机账号,两个简历名字,分别在各个招聘网站投了双份简历,一个是数据分析的简历、一个是web全栈开发的简历,我真正接触python快2年,不管是学习还是工作学到的东西,这两年大概掌握了(前端+django+爬虫+数据分析+机器学习+NLP+Linux)技术,技术水平自我评价一般,够日常一般使用,基于自己掌握的技术可以分成2方面,web和数据分析,所以为了尽快找到工作,就做了web全栈开发+数据分析(含爬虫)2份简历,同时投递 2、面试安排 疯狂投简历,2个账号多个平台同时投,每天接到2-4个面试邀约电话,每天安排2到3家面试,一般上午1家,下午的话一般我尽量安排离得近的公司面试,2点一家,4.30一家,基本时间上都还来得及,只不过这样确实比较赶 3、公司及面试情况 邀约面试的电话,从数量来看,涵盖web开发(和web开发+数据分析算法建模)的面试邀约更多,纯数据分析/算法的面试较少,数据分析面试少的原因,一方面可能自己简历写的项目不多,而且学历本科也没多大优势,另一方面可能实际需求上确实web岗位多,纯分析岗位少,5天面试了11家公司,拿到offer有2家,等最终复试的还有2家