数据分析

传统BI还是自助式BI---BI与数据分析 ZT

。_饼干妹妹 提交于 2020-01-08 13:27:58
自助式BI或者自助式数据分析是最近几年兴起的一个概念。根据Gartner发布的信息,Self Service Business Intelligence(SSBI)被定义为“终端用户在被批准和支持的平台或工具组合中设计和部署自己的报告和分析。 很多业内人士都表示未来的BI或者数据分析的趋势就是要实现去中心化。以前有三类人需要牵涉到整个BI系统的环境或者是业务的搭建过程中(ETL, 数据分析及可视化,业务人员)。去中心化就是企业不再需要有一个专门的BI部门去完成整个业务的需求,而是业务部门的人员需要参与到数据分析及可视化的日常工作中间去,利用一个平台或者工具能够实时地满足自己的分析需求。也早已有很多自助式分析的工具已经发展起来。使用方便、界面分析DIY、学习成本低是它区别于传统工具的特性,像我们常见的Tableau、QlikSense、PowerBI 、 Wyn Enterprise 等数据分析软件。来自 GrapeCity ( Wyn Enterprise 的厂商)的预测未来的几年之内这种模式的工具和概念将会覆盖大多数的数据分析应用场景,自助式数据分析时代正在来临。 不过有一些行业专家却对此表示不一样的看法。Rob Wunderlich是Qlik的产品应用大师,他有很多开创性的技术文章为广大的Qlik开发人员解决了大量难题。他曾就到底什么是自助式BI提出过一些观点。他认为

速度围观 | 如何用大数据拆散一对异地恋情侣

折月煮酒 提交于 2020-01-07 07:32:05
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在北京做程序员的小王和和在上海做产品经理的小李网恋了,一时间山盟海誓干柴烈火,可是有一道难题摆在这对情侣面前:小王不想去上海,说上海互联网的发展并没有北京成熟;小李不想去北京,觉得北京氛围浮躁都是小型公司,正值资本寒冬恐是不好发展壮大。争执不下的俩人找到了一向劝分不劝和的直聘君,直聘君准备采用技术手段调(拆)解(散)他们。 北京的靠谱公司多得是,但想“养老”还得去上海 就像在图中所表示的一样,在北京的互联网公司中,0-20人的小型公司占据了23.26%,在上海这个比例则是24.21%,所以如果小李留下上海,下次跳槽遇到小型公司的可能性会更大哦。另外20-99人的公司占据北京公司总数的比例要比占据上海的高出不少,如果小王和小李都想找到一家相对稳定又飞速发展的公司,去北京是个上佳选择;而大型公司福利更好呢,小李又是女孩纸,从图表可以看出,上海1000-9999及10000以上的公司,相对于北京都占据更大比例,小李还是留在上海比较好。 公司亮点:北京果然“首堵”,上海多年假 “公司亮点”是Boss直聘APP里B端的选择标签,Boss可以选出特定几个标签来吸引更多候选人。我们发现,“公司氛围好”和“领导nice”是北京Boss和上海Boss都喜欢选择的标签,这点颇符合年轻一代白领的愿望。有意思的是,排名前三的公司亮点中

数据驱动的地理学 Data-driven Geography

陌路散爱 提交于 2020-01-07 06:57:28
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 数据驱动的地理学 Data-driven Geography 引用:Miller H J, Goodchild M F. Data-driven geography[J].GeoJournal, 2015, 80(4): 449-461. 这篇文章的两个作者可是鼎鼎大名,搞地理学的应该不陌生,Miller是俄亥俄州立大学教授,在地理信息科学尤其是交通地理信息方面很有名,Goodchild基本上可以算目前地理信息科学领域第一人了吧,加州大学圣塔巴巴巴拉分校(这可是涛哥心中的圣地啊^-^ )的教授,美国科学院院士,地理信息科学这概念就是他老人家首先提出来的。 文章的题目很吸引人,“大数据”是近几年非常火的概念,数据时代已经来临,大数据开始影响社会各行各业,那么在地理学的研究领域会引发什么样的变化呢,数据如何驱动地理学的研究呢。文章从大数据的概念开始,重点分析了用数据驱动地理学研究所面对的主要挑战是什么;在数据驱动的地理学研究中的理论扮演什么样的角色;以及大数据技术如何融入到地理学的研究中。 1、什么是大数据。 大数据的“大”不仅是指数量多,它体现在三个维度上,“3V”, volume:采集和存储的数据数量;velocity:数据获取的速度;variety:获取数据的类型。 2、大数据与数据驱动的地理学。

链家北京二手房数据分析

扶醉桌前 提交于 2020-01-07 04:07:27
环境: R 研究对象: 1. 二手房数据的区域特征 2. 二手房数据的面积特征 1. 导入原始数据 setwd("/Users/mac/Desktop/lianjia/") d = read.csv("/Users/mac/Desktop/lianjia/Lianjia.csv")   2. 数据清洗 - 将数据设置为数据框格式,并查看数据汇总信息 as.data.frame(d) summary(d) - 初步观察:一共有11个变量,目标变量为Price - 移除第六列ID信息,不具有分析价值。添加新的特征每平米房价 PerPrice (总价/面积),并调整列的顺序。 d <- d[,-6] dp <- d$Price/d$Size d2 <- transform(d,PerPrice=dp)    3. 数据可视化 3.1 区域特征分析 #各大区二手房每平米房价对比 means1 <- aggregate(d2$PerPrice, by=list(d2$Region), FUN = mean) #https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/aggregate means1 <- means1[order(means1$x, decreasing = T),] a1 <- means1$x

数据分析如何助力保险行业实现真正的“按需”服务?

冷暖自知 提交于 2020-01-03 21:25:49
随着客户消费模式的改变和对服务要求的不断提高,当前保险行业正经历深刻变化。虽然保险行业已经积累了大量的客户数据,但由于其业务的复杂性及缺少系统的建设,大多数数据都是孤立的。 而在数字化浪潮的推进下,许多保险公司正在改变过时的产品驱动型业务模式,将重点转向改善客户体验,以数据驱动业务,真正做到“以客户为中心”,“按需”提供服务。 作为国内首家专业养老险公司,中国平安集团旗下子公司平安养老保险股份有限公司,签约永洪科技,凭借其在大数据、BI、AI技术的领先优势和更完整的保险行业数据分析解决方案,打通消费端和生产端的数据壁垒,提升客户服务体验,打造保险行业数字化升级新标杆。 平安养老保险股份有限公司,2004年12月在上海成立, 是国内首家专业养老险公司。自2006年与平安人寿团体保险重组以来,公司业务规模不断扩大,经营绩效持续提升。2010年,平安养老险成为业内首家盈利的养老险公司,并持续盈利。凭借综合实力、行业优势,公司当选中国保险行业协会常务理事兼养老保险专业委员会主任单位,并获评“亚洲最佳养老险公司”。 2018年,平安养老险短期险和长期险业务(含税延)规模分别为215.00亿元和100.72亿元,市场份额均居行业前列。截至2018年12月31日,公司管理的企业年金受托资产、投资资产及其他委托管理资产共计6101.49亿元,其中,企业年金受托资产2364.62亿元

谁说菜鸟不会数据分析_笔记

╄→гoц情女王★ 提交于 2020-01-01 02:06:51
1.数据分析划分:描述性数据分析、探索性数据分析、验证性数据分析。 2.数据分析作用:现状分析、原因分析、预测分析。 3.数据分析六部曲:明确分析目的和思路--数据收集--数据处理--数据分析--数据展现--报告撰写。 4.营销理论模型:4P()、用户使用行为、STP理论、SWOT等。 5.管理理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。 6.数据挖掘侧重解决四类分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。 7.数据图形化展示,能更有效、直观地传播出所表达的观点。 8.(数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。) 9.好的数据分析报告,首先有一个好的分析框架,且图文并茂,层次明晰,使读者一目了然。 10.分析报告,需有明确的结论,且一定要有建议或解决方案。 11.(数据分析师职业要求:懂业务、懂管理、懂工具、懂设计。) 12.基本的分析方法:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。 13.高级的分析方法:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。 14.(数据分析师的基本素质:态度严谨负责、好奇心强烈、逻辑思维清晰

数据挖掘试题(150道)

a 夏天 提交于 2020-01-01 00:29:43
单选题 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?© A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则

数据分析与挖掘中常用Python库的介绍与实践案例

点点圈 提交于 2019-12-30 20:11:09
数据分析与挖掘中常用Python库的介绍与实践案例 一、Python介绍 现在python一词对我们来说并不陌生,尤其是在学术圈,它的影响力远超其它任何一种编程语言, 作为一门简单易学且功能强大的编程语言,它拥有丰富的第三方库,在许多方面都有着广泛的应用,如网站开发、游戏开发、网络爬虫、数据分析、机器学习等。 在数据分析方面,python拥有Numpy、SciPy、Pandas、Matplotlib等功能强大的模块可供使用。随着这些模块的逐步完善,python在科学领域的地位越来越重要,这其中包括科学计算、数学建模、数据挖掘等。因此,掌握这些模块的基本使用方法至关重要,下面就逐一介绍下。 二、常用库的使用示例 2.1 NumPy 库: NumPy( 官网 )提供了N维数组功能以及对数据进行快速处理的能力,弥补了Python本身没有提供数组功能的缺陷。其提供了两种基本的对象: ndarray和ufunc 。ndarray是存储单一数据类型的多维数组,而ufunc是能够对数组进行处理的函数(ufunc(通用函数)是一种对ndarray中的数据执行元素级运算的函数)。它也是SciPy、Pandas、Matplotlib的基础依赖库。 ndarray:N维数组对象(矩阵),所有元素数据类型必须是相同的。 ndarray属性:ndim属性,表示维度的个数;shape属性,表示各维度得大小

数据分析 - Power BI

天大地大妈咪最大 提交于 2019-12-29 19:01:20
BI 目的 单表的展示有限很多的时候只能体现现象, 仅仅进行监控级别没问题 但是就数据分析而言实在不够用, 大部分的事情需要多表多图展示才可以通过现象深入挖掘诱因 BI 安装 这里使用 microsoft 的 Power BI 因为基础而且免费, 和 microsoft 的环境同套学习成本低 下载软件包地址 点击这 安装就点点点就行了, 第一次打开会让你登录什么的, 全部茶雕就好 BI 流程 报表   原数据信息表结构存储 - 比如 A 用户, B 商品, C 订单 模型   根据表进行的模拟结合, 将多个表的数据进行集和 - 比如 A 用户下了 C 订单, 买了 B 商品 数据清洗   组合模型后对数据进行清理 - 比如去除无效数据, 空值等, 数据清洗在 BI 中会花费不小的时间 可视化图表   根据不同的展示因素进行相应的可视化处理 - 比如趋势用折线, 比例用 饼图条形图, 进度甘特图子弹图等 Dashboard   很多图之后为了解决从现象发觉本质的这个问题, 因此多张图表进行结合成 Dashboard BI 基础使用 获取数据 通过获取数据按钮进行, 推荐使用 csv, 如果选择 excel 经常会有些格式不匹配的问题出现 选择加载后即可 创建图表 插入一个条形图, 初始状态下是灰色的空图, 加入轴和值 ( 对应 x,y ) 拖动即可 然后就会自动创建出来图形 这里缺失

Python 数据分析与挖掘概述

非 Y 不嫁゛ 提交于 2019-12-28 03:12:44
Python 数据分析与挖掘概述 一、数据分析与挖掘介绍 从人类历史的角度出发,我们回顾整个计算机的发展历程可以看到,从第一台电子计算机(ENIAC)于1946年2月诞生到今天,也不过是短短的六十载,但就是在这短短的几十年过程中,计算机技术得到了飞速的发展,极大地促进了社会生产力的提高,提升了生产制造水平。可以说计算机技术是近代以来发展最为迅速的技术之一。 尤其是近年来,随着半导体技术,通讯技术的不断发展,人类收集数据和存储数据的能力都得到了极大的提高。无论是在科学研究还是社会生活的各个领域中都产生积累了大量的数据,对这些数据进行分析以挖掘出蕴含在这些数据中的有用信息,已成为我们各个领域的共同需求,对改善人类的生活,促进社会的发展有着极大的作用。 数据分析与挖掘是指利用数学和计算机的手段,对收集来的数据进行适当的处理和开发,以求最大化地开发数据的功能,发挥数据的作用。具体来说,数据挖掘是从海量的数据中挖掘出隐含的、先前未知、对决策有潜在价值的关系、模式、趋势,并利用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具、和过程。 留心观察就会觉察到,大数据分析在我们生活中的应用案例屡见不鲜。例如许多电商网站会根据用户的历史浏览足迹、购买记录等数据,挖掘出用户的喜好等信息,然后基于用户的兴趣偏好,把用户感兴趣的物品或者视频、资讯等推荐给用户,给用户带来沉浸式的体验