数据分析

用大数据视角另类解读西天取经的那些事儿

◇◆丶佛笑我妖孽 提交于 2019-12-27 21:53:57
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 《西游记》中西天取经路上唐僧师徒历经的九九八十一难简单来说大概是这个样子吧: 走啊走,走啊走……渴了,去前面的人家讨点水喝……呀!人家是妖怪变的!悟空带头打怪,妖怪狗带。 悟空:俺老孙来了! 继续走啊走,走啊走……饿了,去前面的人家化点斋饭……呀!人家是妖怪变的!悟空打不过妖怪/师父不让悟空打怪,师父被抓走了。神仙来助,妖怪狗带,师徒得救。 师父:宝宝心里委屈,可是宝宝不说…… 唐僧总是不解:好好的宅院,村妇,老者,孩童……怎么就是妖怪了呢? 悟空总是委屈:那些明明都是妖怪变的,师父还不让俺打,师父四不四瞎! 那么问题来了:为什么悟空能分辨对方是人是妖,而唐僧不能,八戒和沙僧基本上也不能? 答案当然是因为—悟空开了挂,他有火眼金睛啊! 火眼金睛是什么?《西游记》里讲就是孙悟空的眼睛可以识别是人是神还是妖,他能够看清笼罩在唐僧头上的祥云,和笼罩在妖怪身上的妖气。 而我们若是用大数据的视角来看,就是孙悟空这只猴子在脑袋里安装了大数据分析的应用程序有木有! 《西游记》三打白骨精的故事中,白骨精借尸还魂把魂魄附身在村妇身上,这样摇身一变,怎么看都像是一个平常妇人了,也难怪唐僧会“瞎”。 然而孙悟空利用大数据分析得出的结果却不一样: 引申:利用大数据分析技术,我们是否也可以练就“火眼金睛”? 至少在商业环境中

数据仓库建模

▼魔方 西西 提交于 2019-12-27 09:16:52
前言 数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的 ER建模 和 关系建模 ,还包括专门针对数据仓库的维度建模技术。 本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。 回到顶部 维度建模的基本概念 维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。 它本身属于一种关系建模方法,但和之前在操作型数据库中介绍的关系建模方法相比增加了两个概念: 1. 维度表(dimension) 表示对分析主题所属类型的描述。比如"昨天早上张三在京东花费200元购买了一个皮包"。那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天早上),地点维度(京东), 商品维度(皮包)。通常来说维度表信息比较固定,且数据量小。 2. 事实表(fact table) 表示对分析主题的度量。比如上面那个例子中,200元就是事实信息。事实表包含了与各维度表相关联的外码,并通过JOIN方式与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。 注:在数据仓库中不需要严格遵守规范化设计原则(具体原因请看 上篇 )。本文示例中的主码,外码均只表示一种对应关系,此处特别说明 。 回到顶部

数仓的一些基本概念、处理流程及基础架构

|▌冷眼眸甩不掉的悲伤 提交于 2019-12-26 11:20:29
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> BI/数据仓库/数据分析 基础入门:一些常见概念解释 什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计 数据仓库的架构以及数据分层 数仓的基本操作 数据仓库模型 数据建模相关 数仓进化史 举例:网站ctr流量数据分析 数据产品及开发流程参考 PowerBI可视工具参考 数据仓库的基础架构和处理流程参考: 来源: oschina 链接: https://my.oschina.net/u/1998220/blog/1841668

搞懂这三个指标,数据分析起码少费一半力

不羁岁月 提交于 2019-12-26 10:27:23
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 之前做过的数据分析项目挺多的,最近有一位朋友,他们公司是一家年销售额勉强破千万的电商企业,因为之前的品牌红利期,加上成本优势、野蛮生长,今年后端成本上涨,前端销量也在下滑,想总结一下之前的数据情况,并为之后发展看看有没有哪些突破点。 于是拿着前几个月的原始数据找到我,一起研究怎么构建他们的业务分析指标,聊了一下午发现这位朋友企业的一个特点: 注重结果而非原因 。 数据分析有什么用这个话题不用多说,大家都看过很多“科学数据增长,用数据指导业务增长”这些话题。但是,要想对数据分析有所了解,最少,基础的指标应该知道,能够快速的通过行业常见模型来拆解自己的业务,心里有个谱,在运营中方能胸有成竹,下面会通过用户指标、行为指标、业务指标3个大类来分享。 什么是指标? 现代管理学之父 彼得·德鲁克 提出用管理促进企业增长,他讲过一句非常经典的话:如果你不能衡量,那么你就不能有效增长。 那么如何去衡量?就是用 某个统一标准 去衡量业务,这个统一标准就是指标。 用户指标 用户数据是指用户的基本情况,包括姓名、性别、邮箱、年龄、家庭住址、教育水平、职业等。 1、为什么要关注用户指标? 如果把一款产品看作我的一个鱼塘,那么使用产品的用户就是鱼塘里的鱼,而我们赚钱就靠这些鱼,我们必须找到合适的指标来衡量里面的鱼从而来制定相应的运营策略

顶级数据工程师思考方式

試著忘記壹切 提交于 2019-12-26 10:23:12
  男怕入错行,女怕嫁错郎。同样是IT行业,既有6000块月薪横扫一片的外包人形代码机器,也有刚毕业就年薪30万都招不到的互联网算法工程师。    那顶级数据工程师在面对一堆数据的思考方式是什么样的呢 ?本文主要讲解数据分析的基本概念、基本分析建模方式、以及两种验证方法,最后谈论数据分析和深度学习的区别。 数据分析概念 数据分析 指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用 。数据分析是为了提取有用信息和形成结论而对数据加以洋细研究和概括总结的过程。 数据分析基础分析 数据分析中的 基础分析主要解答事物的统计特征,以及概率的相关问题 。它首先研究是否可以通过均值、方差等简单的统计量来说明问题;其次,分析数据是否符合某种分布,如果能给出数据分析的有效分布,就可以合理地计算事物的概率。 数据挖掘建模 一般情况下,应由易到难地选择建模方式,解决实际问题。比如针对一组数据,我们 首先要 考虑基本的统计量以及概率分布是否能达到数据分析的目标; 其次 思考能否运用数据挖掘的方法来对数据进一步的分析; 最后探讨 深度学习思路能否更好地解决问题。总之,兵无常之势,水无常形。而现在多少人上来就是直接深度学习的。 结果验证 常用的两种方法:1. 多维度对比法 ;2. 冗余验证法 。 多维度对比法 是指对于某一项数据

Python开发者年度调研,结果出乎意料!

心已入冬 提交于 2019-12-25 21:16:35
来源商业新知网,原标题:Python开发者年度调研:一半Python用户也用JS,2/3选择Linux系统 作为高级编程语言,Python的受欢迎程度近几年一直在往 上涨。每年,Python官方都会针对开发者社区做一次年度报告,统计当年的发展情况,并发布调研报告。 今年也不例外,有超过150多个国家的2万多名开发人员加入了这场深入调查,刚刚发布的报告通过7个角度对Python的使用现状、趋势与未来进行了解读。 以下是几个最新的趋势: 1、使用Python作为主语言的开发人员中,有一半的用户也使用JavaScript。Python也经常混搭HTML/CSS,Bash/Shell,SQL,C/C++和Java一起使用。 2、Python用于数据分析比用于Web开发更广泛,数据分析占比58%。 3、84%的用户已经使用Python3,Python2的比例仅为16%。2017年Python3的使用率只有75%。 4、Flask和Django是Web开发人员中流行度最高的框架,两者份额相差无几,但都甩其他Python Web框架“好几条街”。 5、NumPy,Pandas,Matplotlib和SciPy是最受欢迎的数据科学框架和库。机器学习专用的库如SciKit-Learn,TensorFlow,Keras等也很受欢迎。 6、AWS是Python开发人员最受欢迎的云平台

我为什么抛弃Excel?5个理由告诉你,数据分析工具应该这么选

旧城冷巷雨未停 提交于 2019-12-25 11:51:23
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 说到数据分析工具,则不得不提办公三大套件之一Excel,功能强大、入门简单、人手必备,我作为Excel粉,曾急切想要掌握这款高级的工具以提高自己的业务能力,于是便开始在网上铺天盖地的教程中摸爬打滚。 深入学习后,发现操作理解难度加深,经常是做了后一步操作忘记前一步,磕磕跘跘,经历一番挣扎,最后终于还是学会了一些复杂功能,然而因平时工作很少涉及过于复杂的分析场景,随着时间的流逝,之前掌握的技能又逐渐淡忘了,需要用时发现还得跟着教程一步步做。 更难的是,Excel教程杂乱无序,没有针对数据分析的专门教程,比如我想实现的分析场景包含一系列操作,excel教程以单个操作来讲解,对单个操作理解不正确就容易走偏,甚至循环往复,做了很多重复多余的步骤。 现在想想,之前大部分课程花了钱都在学函数、公式、快捷键上,得不偿失,又不甘心放弃学习,于是在网上搜罗了一番,”数据分析入门“、”免费数据分析软件“、“BI”等等,最终发现了一款个人版免费的大数据软件 FineBI ,抱着试试的态度下载试用。 比较满意的是,在学习资源上,FineBI上有完善的教学视频讲解和针对分析场景的细致帮助文档指导,根据帮助文档还可以学习到数据分析的方法,这应该就是专业的大数据分析软件,Excel打遍天下无敌手后,还有BI市场的根本原因。

零基础学习Python数据分析

走远了吗. 提交于 2019-12-25 10:44:14
网上虽然有很多Python学习的教程,但是大多是围绕Python网页开发等展开。数据分析所需要的Python技能和网页开发等差别非常大,本人就是浪费了很多时间来看这些博客、书籍。所以就有了本文,希望能帮大家少走一点弯路。 -----------------我是分割线-------------- 本文章主要从数据分析、机器学习(深度学习)的目的出发, 讲讲如何零基础学习Python语法、数据分析模块(Numpy、Scipy、Scikit和Pandas等)以及使用python进行机器学习(SFrame,tensorflow)。 (今天就写个小框架吧^_^) 去年开始接触Python数据分析的学习,全是自学,所以对于广大网友来说应该有较大的借鉴意义。熟练掌握任何一门语言,几乎都需要经过以下过程: 良师--学习Python课程+入门书籍+浏览技术博客 社区帮助--善于使用搜索引擎、Mail List 益友 -- 寻找学习伙伴 Learn by Code --项目实践 一、Python学习课程推荐 这两个学习课程从最基础的Python语法开始,介绍了Python数据分析、统计模型以及机器学习的各个方面,内容十分充足。之所以建议使用老外的课程是因为,老外上课假定你什么都不会,讲解深入浅出,尤其是对于华盛顿大学的机器学习课程,把复杂的概念讲解得十分简单。 1. 密歇根大学的

Pandas里面常用的一些数据分析函数总结

孤人 提交于 2019-12-24 14:48:42
import pandas as pd import numpy as np pandas 有两个主要的数据结构:Series 和 DataFrame; Series 是一个一维数组对象 ,它包含一组索引和一组数据,可以把它理解为一组带索引的数组。 DataFrame 是一个表格型的数据结构。它提供有序的列和不同类型的列值。 df:Pandas DataFrame对象 s: Pandas Series对象 数据导入:   pd.read_csv(filename):从csv文件中导入数据;   pd.read_table(filename):从限定分隔符的文本文件导入数据;   pd.read_excel(filename):从Excel文件导入数据;   pd.read_sql(query,connection_object):从SQL表/库中导入数据;   pd.read_json(json_string):从JSON格式的字符串导入数据;   pd.read_html(url):解析URLL,字符串或者HTML文件;   pd.read_clipboard():从粘贴板获取内容;   pd.DataFrame(dict):从字典对象导入数据; 数据导出:   df.to_csv(filename):导出数据到CSV文件;   df.excel(filename)

Python数据分析与挖掘实战学习笔记(1)

微笑、不失礼 提交于 2019-12-24 14:47:51
Chapter1 数据挖掘基础 目录 Chapter1 数据挖掘基础 什么是数据挖掘 数据挖掘的基本过程 定义挖掘目标 数据取样 数据探索 数据预处理 模型评价 什么是数据挖掘  从数据中淘金,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘。 数据挖掘的基本过程 定义挖掘目标  针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此,我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。 数据取样  在明确了需要进行挖掘的目标以后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部的企业数据。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,还可以使我们想要寻找的规律性更加凸显出来。  进行数据取样,一定要严把质量关。在任何时候都不能忽视数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律性”,再依此下去,则很可能会造成误导。若从正在运行的系统中进行数据取样