数据分析

2016年我国能源行业大数据的发展现状及市场分析

故事扮演 提交于 2020-04-18 08:52:39
随着信息化的深入和两化的深度融合, 大数据 在石油石化行业应用的前景将越来越广阔。以下是是2016年我国能源行业大数据的发展现状及市场分析。 随着信息化的深入和两化的深度融合,大数据在石油石化行业应用的前景将越来越广阔。以下是是2016年我国能源行业 大数据的发展 现状及市场分析: (1)石油天然气行业大数据进展 石油天然气行业的大数据仍处于起步阶段。2014年石油行业共组织召开5场提高油气行业信息化的会议,意在提高行业信息化程度,推广大数据在行业内的应用。根据中国石油招标网的数据统计,2014年中国石油共发起建设12个与大数据有关的项目,其中东方物探、新疆塔里木油田及大庆油田在 大数据领域 的动作最多。项目建设内容多集中在建设油田勘探开发一体化数据中心、建设研究成果知识库2个领域。这也说明目前国内油气行业仍处在数据的采集、存储阶段,尚未上升到 大数据挖掘分析 的高度。 原油炼制及油品销售环节的大数据处于萌芽阶段。企业对炼油大数据仅有概念性的了解,目前能够体现业务布局的即阿里与中石化的合作。阿里云今年4月 20日宣布与中国石化展开技术合作,中国石化将借助阿里巴巴在云计算、大数据方面的技术优势,对部分传统石油化工业务进行升级,打造多业态的商业服务模式。 油气行业长期以来处于垄断地位,对于新技术的接受和推广较为缓慢。但随着国家大数据战略的推行,大数据在能源行业必将展开应用

解密 | 大数据环境下的多维分析技术

时光毁灭记忆、已成空白 提交于 2020-04-09 19:46:42
引言 上期的文章《大数据环境下的多维分析技术(1)》让大家了解到,在大数据环境下, IBM Cognos 的Dynamic Cubes可以实现TB级的多维分析功能,文章探讨了影响Dynamic Cubes性能的因素,还介绍了Dynamic Cubes性能调优的一些手段。其中提到了可以通过Dynamic Query Analyzer (下文简称DQA)工具来对动态立方体的查询性能进行评估并得到优化建议。那这个DQA工具到底是个什么东西,本期文章为大家一一解密。 DQA介绍 DQA是一个通过分析Dynamic Cubes的模型设计及查询日志来进行排错、提供优化建议的工具。它可以提供图形化界面帮助您理解和分析动态查询的查询性能。DQA可以提供Dynamic Cubes模型层面的分析建议,也可以提供查询负载方面的分析建议。这个工具可以安装在32位、64位的windows,或者64位的Linux系统上。 DQA的安装与配置 其安装方法比较简单,只需在安装介质的对应操作系统目录下运行issetup.exe(64位Linux系统为issetup)程序,就会出现图形界面。您只需要按安装向导一步一步操作,即可安装完成,本文不再累述。下面我们看看如何配置DQA(以windows环境为例)。 1. 从开始菜单里找到并打开DQA应用程序,并在“窗口”菜单里选择单击“首选项”子菜单。如下图所示。 2.

建模的技巧及优化

£可爱£侵袭症+ 提交于 2020-04-08 03:29:16
建立模型应该考虑的几个问题 数 据仓库建模质量直接影响数据仓库项目的质量,甚至成败。在进行建模之前,要对数据仓库的规模、组成及模型不同部分的功能定位有明确的定义。影响数据仓库建 模的因素众多,且根据不同项目的具体情况而变化口下面的几个问题是较为通用和常见的,远远不是建立模型应该考虑的全部问题。 数据仓库的业务特点对建模的要求 1 数据仓库的数据组织是面向主题的,而不是面向报表的 数据仓库是面向业务分析的主要主题领域的,进行形成数据模型的定义。典型的主题领域主要包括: · ·顾客购买行为 · ·产品销售情况 · ·企业生产事务 · ·原料采购 · ·合作伙伴关系 · ·会计科目余额 要 对现有的报表需求进行细致的分类、分析和调整,不能为了实现单个报表而进行大量的建模工作。要根据分析的不同内容和主题对报表进行分类,明确报表中每一个 数据的定义、统计口径及不同数据之间的关系,建立在整个数据仓库内统一的数据指标的定义,将数据指标按分析主题及分析维度进行归集,从而形成面向主题的数 据模型。 例如:我们的利润表报表,当业务部门发我们一个利润表 的报表,作为需求时,我们应该进行细致的分析,最终我们确定我们面向的主题不是利润表,而是比利润表更大的一个层次的所有科目业务量的主题,这样我们在做 别的报表,例如资产负债表,现金流量表等报表时,就不用重复建模的工作了,做到了软件工程中的可重用规则。 2.

【经验分享】我经历的几门MOOC

感情迁移 提交于 2020-04-07 16:14:41
这半年来,从1月初到6月底,在coursera上注册了4们有关数据分析/挖掘的课程。这些课程都是利用业余时间学习,每周基本上花5个小时左右。其中通过了3门,注销了一门。感觉还是学到了一些东西。 第一门课程 Computing for Data Science ,2013年1月2日开课,为期4周。本课程主要是学习编程语言R---一种数据分析语言和环境,学完后可以用R完成基本分析任务,但一些高级的数据可视化掌握得不熟练,需要后面巩固。 第二门课程 Data Analysis ,2013年1月22日开课,为期8周。这门课程与上门课程配套的,主要用R进行一些数据分析。主要的理论是统计学,什么概率,抽样,统计,正太分布,置信区间,假设检验呀,线性回归,决策树,随机深林等。课程中有两个peer review作业(我最喜欢的部分),需要按照要求对两个问题进行分析,然后输出分析报告。第一个问题是分析LeadingClub(美国的一家P2P借贷平台)的借贷利率的制订方式,这个任务是在过年期间完成的,所以过年除开走亲戚的时间,基本上都耗在这上面了,不过还是值得的,这个过程学到了很多东西。这个问题用线性回归可以轻松解决。第二个问题分析三星手机收集的用户行为数据,预测用户的行为(走,坐,站,上楼,下楼等)。也是要输出一份分析报告,使用决策树和随机森林可以搞定。我很喜欢Coursera上的Peer

《Python数据分析与机器学习实战-唐宇迪》读书笔记第1 章--机器学习概念、入门环境

为君一笑 提交于 2020-04-07 11:23:05
python数据分析个人学习读书笔记-目录索引   唐宇迪,计算机专业博士,网易云课堂人工智能认证行家,51CTO学院讲师,CSDN博客专家、讲师。拥有多年人工智能领域培训经验,带领课程研发团队累计开发AI课程60余门,覆盖当下人工智能热门领域   该书结合了机器学习、数据分析和 Python 语言,通过案例以通俗易懂的方式讲解了如何将算法应用到实际任务。 全书共 20 章,大致分为 4 个部分。第一部分介绍了 Python 的工具包,包括科学计算库 Numpy、数据分析库 Pandas、可视化库 Matplotlib;第 2 部分讲解了机器学习中的经典算法,例如回归算法、决策树、集成算法、支持向量机、聚类算法等;第 3 部分介绍了深度学习中的常用算法,包括神经网络、卷积神经网络、递归神经网络;第 4 部分是项目实战,基于真实数据集,将算法模型应用到实际业务中。 该书适合对人工智能、机器学习、数据分析等方向感兴趣的初学者和爱好者。 该书的推荐学习路线图: 《Python数据分析与机器学习实战-唐宇迪》读书笔记第1 章--机器学习概念、入门环境 1.1机器学习的应用领域: 2、机器学习流程: 一般来说,机器学习流程大致分为以下几步:    第①步:数据收集与预处理 。例如,新闻中会掺杂很多特殊字符和广告等无关因素,要先把这些剔除掉。除此之外,可能还会用到对文章进行分词

八大数据分析模型之——全行为路径分析(七)

眉间皱痕 提交于 2020-04-07 10:57:50
用户在产品中的行为其实是个黑盒子,全行为路径是用全局视野看用户的行为轨迹,很多时候你会有意想不到的收获,在可视化的过程中有两个模型,一个是树形图、一个是太阳图,今天我们将继续解读八大数据分析模型之——全行为路径分析,让你快速直观看到用户如何在使用你的产品。 一、行为路径分析 单体洞察、用户分群、行为路径分析是用户行为数据分析的三大利器。单体洞察满足了我们对单个用户的特征洞察,用户分群满足了我们对全量用户或某一特征人群的洞察,而行为路径分析是对用户产生的行为数据的可视化分析模型,某一人群交叉行为路径分析模型,可以快速洞察到这一群体的行为特征。常用的行为路径分析模型有漏斗分析模型和全行为路径分析模型。 在分析既定的行为路径转化时,我们会采用漏斗分析模型,你会看到用户在我们设定的路径中的每一步转化,比如从查看商品详情到最终支付成功每一步的转化率,从而对既定路径不断调优。 图1:注册转化漏斗 但是,用户在产品内的行为路径可以说是个黑盒子,界面内的每一个按钮、信息都会影响用户的下一行为。为此,我们需要拥有一个更高的视野去俯视用户的行为,打开这个黑盒子,而这一分析模型就是全行为路径分析模型。 二、全行为路径分析模型 全行为路径分析是互联网产品特有的一类数据分析方法,它主要根据每位用户在App或网站中的行为事件,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或浏览模式

八大数据分析模型之——漏斗分析模型(三)

≯℡__Kan透↙ 提交于 2020-04-07 10:56:21
比如,之前在知乎上看到有人问: 1、漏斗,统计的是人数?还是次数? 2、如何构建漏斗模型?要将浏览→完成交易中的每步都列出来吗? 3、有哪些分析场景? 今天我们就来一起捋捋常见的数据分析方法——漏斗分析模型,同时逐一回答上述问题。 一、什么是漏斗分析模型 漏斗分析模型,简单来讲,就是抽象产品中的某一流程,观察流程中每一步的转化与流失。 比如:教育培训类产品的用户,从首页进入到最终完成支付的行为,大多需要经过搜索课程,查看课程详情、点击购买、立即支付、支付成功,我们需要将按照流程操作的用户进行各个转化层级上的监控,寻找每个层级的可优化点;对没有按照流程操作的用户绘制他们的转化路径,找到可提升用户体验,缩短路径的空间。 这里回答文章开始的第一个问题,通常来讲,漏斗分析都以人数来统计,为什么不按照次数来统计呢?我们看一个例子。 假设某漏斗模型是A→B→C→D,如果用户从A→B再→B再→B(假设A是用户进入课程详情页的次数,B是点击购买的次数,也就是这个人重复添加到支付页面)那漏斗的第二步统计的次数可能会大于第一步统计的次数,这也违背了漏斗分析模型的意义。 以人数来统计,就是次数去重以后基于时间序列的统计。一个用户只要做过从A到B,无论做了多少次,都是一个A到B的转化,当然,这里边有个非常关键的限定,就是转化周期限定,1天,2天,一个会话······也就是用户从A→B发生的时间周期

【经验分享】零基础Python学习路线及阶段学习目标

徘徊边缘 提交于 2020-04-07 10:13:49
零基础Python学习路线及阶段学习目标,首先应该夯实Python核心基础、Web前端编程、Django开发框架、Flask开发框架、爬虫与数据分析等知识,理解机器学习相关的基本概念及系统处理流程。 零基础Python学习路线及阶段学习目标:   阶段一、Python核心基础   1、Python编程基础,语法规则,函数与参数,数据类型,模块与包,文件IO,培养扎实的Python编程基本功,同时对Python核心对象和库的编程有熟练的运用。   2、Python面向对象,核心对象,异常处理,多线程,网络编程,深入理解面向对象编程,异常处理机制,多线程原理,网络协议知识,并熟练运用于项目中。   3、类的原理,MetaClass,下划线的特殊方法,递归,魔术方法,反射,迭代器,装饰器,UnitTest,Mock。深入理解面向对象底层原理,掌握Python开发高级进阶技术,理解单元测试技术。   4、数据库知识,范式,MySQL配置,命令,建库建表,数据的增删改查,约束,视图,存储过程,函数,触发器,事务,游标,PDBC,深入理解数据库管理系统通用知识及MySQL数据库的使用与管理。为Python后台开发打下坚实基础。   5、Linux安装配置,文件目录操作,VI命令,管理,用户与权限,环境配置,Docker,Shell编程Linux作为一个主流的服务器操作系统

大数据分析——如何消除金融不确定性

☆樱花仙子☆ 提交于 2020-04-07 07:28:41
“信息是用来消除不确定性的东西。”——香农《信息论》 “大数据的本质,就是通过信息消除不确定性。”——吴军《硅谷之谜》 桑文锋非常认同这两点,引入更多的信息,可以消除更多的不确定性,这就是为什么信息是重要的。显然大数据是更多的信息,在数据处理上可以在业务中起到更多作用。 数据到底能做什么?一点是数据驱动决策,另一点是数据驱动人工智能。 数据驱动决策主要是 BI 方面,不论是做产品改进、营销、运营监控、商业决策,都是通过收集更多的数据,让决策变得更加有效,而非拍脑袋凭感觉。 数据驱动产品智能方面更多体现数据价值,驱动决策只能发挥 20% 的价值。基于数据改进产品,数据的价值远远大于几张报表。驱动产品智能更多称为 AI 人工智能,智能就是在数据的基础上,通过一些策略算法,例如深度学习,得出结果,把结果回归到产品里,产品本身具有学习能力就是一种智能。 数据处理的第一步是数据采集;第二步是数据建模,整合数据模型;第三步是通过数据模型做数据分析;最后一步是做指标。 第一步 数据采集 数据采集原则 数据采集离不开数据源,这是桑文锋八年百度构建数据平台的经验之谈。数据分析出问题,往往是数据本身收集不够好,基于如此的基础上建高台,肯定是不稳定的。基于随心所欲的需求出业务报表,就会发现日后的想法没有数据支撑。如何把数据源整好?原则就是大、全、细、时。 大”强调宏观的“大”,而非物理的“大”。

八大数据分析模型之——事件模型(二)

陌路散爱 提交于 2020-04-07 07:27:33
诸葛君说:在日常的数据分析中,常用的有8大模型: 用户模型(点我回顾) 、事件模型、漏斗分析模型、热图分析模型、自定义留存分析模型、粘性分析模型、全行为路径分析模型、用户分群模型,其中,“事件模型”对于很多业务人员来说相对比较陌生,但他却是用户行为数据分析的第一步,也是分析的核心和基础。 事件模型中的逻辑结构、事件的准确性、自定义能力和对事件的管理是“事件模型”的几大要素。对这一模型有了深刻的认识和理解,那用户行为数据的采集逻辑也就基本掌握。下文我们稍作展开。 一、什么是事件? 在日常工作中,不同岗位、不同角色所关注的事件各不相同,比如,市场人员可能关注点击进入落地页的人数以及进入落地页后用户是否点击核心按钮,比如“立即注册/立即购买”等?运营人员可能更关注某次邀请好友活动中老用户是否点击该活动页面,是否将邀请海报分享到朋友圈?PM可能更关心新功能上线后用户是否点击打开?在洞察诸如此类的指标过程中,事件模型就起到了至关重要的作用。 那么,什么叫做“事件”呢?简单讲,就是用户在产品上的行为,它是用户行为的一个专业描述,用户在产品上的所有获得的程序反馈都可以抽象为事件,由开发人员通过埋点进行采集,通俗讲就是:将一段代码放入对应的页面/按钮,用户进入页面/点击按钮的本质是在加载背后的代码,同时再加载事件采集代码,这样就被SDK所记录下来了。 二、事件的采集 其实,要说明白事件模型这个事