数据分析

python 数据分析之pandas

给你一囗甜甜゛ 提交于 2020-02-26 15:53:07
pandas 是数据分析时必须用到的一个库,功能非常强大 其有两种数据结构:一维Series 二维表 DataFrame (一般读取后的数据都是df) 导入:import pandas as pd 数据读取 :pd.read_csv('d:/a.csv',dtype=objec,encoding='utf-8')      pd.read_csv('d:/a.txt',dtype=objec,encoding='utf-8')  pd.read_excel('d:/a.xls',dtype=objec,encoding='utf-8') dtype:指定数据读取后的类型 encoding:指定编码 jupyter默认为utf-8 数据输出 :pd.to_excel(path) 一次写入多张表:利用ExcelWriter()方法 with pd.ExcelWriter(r'd:/test.xlsx',encoding='utf8') as writer: #利用ExcelWriter()创建一个工作薄,并指定路径和名字 r表示后面的输入为长字符串,可以省略报错再加   df1.to_excel(writer,sheet_name='sheet1') #写入刚刚创建的工作薄并给工作表命名有几个表就写入几次   df2.to_excel(writer,sheet_name='sheet2

第九周 计算生态概览

戏子无情 提交于 2020-02-26 15:41:35
从数据处理到人工智能 数据表示:采用合适方式用程序表达数据 数据清洗:数据归一化、数据转换、异常值处理 数据统计:数据的概要理解,数量、分布、中位数等 数据可视化:直观展示数据内涵的方式 数据挖掘:从数据分析获得知识,产生数据外的价值 人工智能:数据/语言/图像/视觉等方面深度分析与决策 数据分析 Numpy:表达N维数组的最基础库,是众多数据分析库的基础,使用C语言实现,但对外的接口是python语言,计算速度优异;基本支撑了python数据分析及科学计算的基础库,例如Pandas等;提供矩阵运算、广播函数、线性代数等功能。 Pandas:python数据分析高层次应用库。提供简单易用的数据结构和数据分析工具;理解数据类型与索引的关系,操作索引即操作数据;是python最主要的数据分析功能库,基于Numpy开发。 Series=索引+一维数据 DataFrame=行列索引+二维数据 SciPy:数学、科学和工程计算功能库。提供一批数学算法及工程数据运算功能;类似matlab,可用于傅里叶变换、信号处理等应用;python最主要的科学计算功能库,基于Numpy开发。 数据可视化 Matplotlib:高质量的二维数据可视化功能库。提供了超一百种数据可视化展示效果;通过matplotlib.pyplot子库调用可视化效果;python最主要的数据可视化功能库,基于Numpy开发。

数据分析第六篇:机器学习分类

匆匆过客 提交于 2020-02-26 06:29:12
1. 监督学习,非监督学习,半监督学习和增强学习 机器学习方法分类标准一: 监督学习: 分类、回归 给机器的训练数据拥有 “标记”或“答案” 有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有 LDA主题模型 、 朴素贝叶斯算法 和 隐式马尔科夫模型 等,常见的判别方法有 SVM 、 LR 等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。 非监督学习: 给机器的训练数据没有 “标记”或“答案” 对没有 “标记”的数据进行分类 - 聚类分析 非监督学习的意义: 1.对数据进行降维处理 - 特征提取:信用卡的信用评级和人的胖瘦无关 - 特征压缩:PCA(尽量少损失数据的情况下,将高维的特征压缩到低维) 2.异常检测 半监督学习: 一部分数据有 “标记”,另一部分没有 更常见:各种原因产生的标记缺失 通常先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测 增强学习:( AlphaGo、无人驾驶、机器人) 根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式。 2. 批量学习,在线学习,参数学习和非参数学习 1.在线学习和批量学习(离线学习): 1.1 批量学习 优点:简单,只需要学习算法的本身,新数据来了,不需要重新学习 问题:如何适应环境的变化? 解决方案:定时重新批量学习 缺点:每次重新批量学习,运算量巨大

武汉拉网式大排查结束,湖北新增确诊降至349|2月20日疫情播报

僤鯓⒐⒋嵵緔 提交于 2020-02-26 02:52:44
#永洪科技今日疫情播报#最新数据显示:截至2月20日8:00,我国累计确诊74665例,现有疑似5248例,累计治愈15949例 ,累计死亡2119例。(注:国家卫健委20日暂未发布最新数据,数据来源参考各省市卫健委总和) 19日,武汉全部完成拉网式大排查和临床确诊病例、疑似患者、密切接触者、发热病人核酸检测。湖北新增确诊降至349例,说明更多疑似病例被排除。 全国不含湖北地区新增确诊病例连降16天,截止2月18日,共累计25个城市现存确诊归零。 数据来源国家及各省市卫健委 以上所有数据分析图都来自Yonghong Desktop桌面智能数据分析工具制作。 疫情期间 免费使用Yonghong Desktop 支撑众多企业远程办公能力,让您更好读懂Yonghong Desktop! Yonghong Desktop是中国第一款独立自主的桌面智能数据分析工具,帮助每一个人快速、高效地进行数据探索。 无论您的数据来自数据库还是电子表格,都可以将这些不同源中的数据进行快速合并,Yonghong Desktop还内置了高性能数据集市,秒级响应百万数据量的计算任务。通过拖拽数据到丰富的仪表组件,即可快速实现数据分析。 除了支持在线分析,Yonghong Desktop也支持离线分析,在安全可控的前提下,业务用户可以下载并分析被授权的企业数据,这能更好地支持移动办公、在家办公等离线分析场景。

疫情下的危机:企业如何提高抗风险能力?

半世苍凉 提交于 2020-02-26 02:52:37
始自武汉的这场来势凶猛的疫情对政府的管理能力、应对危机的能力及国家民族的凝聚力提出了严峻的考验。同时疫情也对企业经营决策管理能力、危机处理能力和快速应对外部环境变化的反应能力方面提出更为严格的挑战。 自新冠病毒肺炎疫情爆发以来,在政府强有力的管控和广大企业、人民的配合下,疫情蔓延的势头得到了初步的控制,接下来我们还要一起奋战,直至取得抗击疫情的全面胜利。在这种情况下我们也来梳理一下在疫情危机下企业对数字化运营的需求以及疫情之后如何构建企业的数字化生态系统来进一步提升我们的抗风险能力和应对市场变化时的快速、准确的反应能力。 首先,疫情对企业决策模式提出新的要求。在疫情之下所有的线下活动都被严格限制,以前企业靠开会、集体拍脑袋的决策方式无法开展。尽管线上协同办公和各种音视频的会议系统可以让我们在线上保持沟通,但这些系统在处理多人互动的交流时效率会大幅降低。 那么如何提升企业决策的效率和准确率呢? 首先,这就要求企业经营决策更多的依赖数据。通过准确、及时的获取企业内外部数据并对数据进行科学、合理的分析可以让企业决策层及管理层更清楚的掌控企业的经营状况,并找到决策的依据。例如:在当前状况下很多企业面临的首要问题是严格控制成本,保证现金流的安全。那我们就要分析哪些产品、哪些区域、哪些渠道甚至哪些人给我们企业创造了最多的收入和利润,企业要采取战略聚焦时,哪些产品或区域的投入产出比太低需要放弃

抗疫最大压力:湖北4.6万确诊病例如何消化? | 2月14日全国疫情播报

时光怂恿深爱的人放手 提交于 2020-02-25 19:55:05
#永洪科技今日疫情播报#最新数据显示:截至2月14日8:00,我国共确诊63743例,疑似13435例,治愈6746例 ,死亡1487例。(注:国家卫健委14日暂未发布最新数据,数据来源参考各省市卫健委总和) 湖北新增确诊病例达4823例,而全国不含湖北地区新增确诊病例已连续10日呈下降态势,通过永洪科技AI模型预测,到2月19日全国不含湖北地区的新增病例将下降到个位数。 抗疫的重点还是在湖北,湖北现有确诊病例46429例,确诊病例的收治依然存在缺口,不能尽快隔离收治就意味着依然存在社会扩散传染的可能。其次是重症、危重病人的治疗,这也是湖北面临的最大压力,目前看形势不乐观,重症和危重人数持续增加,对于医疗系统压力很大。需要加强病例救治,全力减少重症,降低病死率。 数据来源国家及各省市卫健委 以上所有数据分析图都来自Yonghong Desktop桌面智能数据分析工具制作。 疫情期间 免费使用Yonghong Desktop 支撑众多企业远程办公能力,让您更好读懂Yonghong Desktop! Yonghong Desktop是中国第一款独立自主的桌面智能数据分析工具,帮助每一个人快速、高效地进行数据探索。 无论您的数据来自数据库还是电子表格,都可以将这些不同源中的数据进行快速合并,Yonghong Desktop还内置了高性能数据集市,秒级响应百万数据量的计算任务

强烈推荐一款搭建企业管理系统的快速开发平台

荒凉一梦 提交于 2020-02-25 19:11:53
由于市场不断扩大,销售人员的不断增加以及客户的积累。传统的EXCEL客户拜访表已不能满足现有的需求。因为传统的表单每次数据分析需要将四五十个销售的数据整理成报表需要大量的时间。 公司销售总监交给了我一个任务,想做一个企业客户管理系统便于数据分析,更好地开展工作。 接到这个任务,我有点蒙圈,负责工程中心做云平台开发的同事每天也忙得不可以开交,我去哪里找人来做这个项目。 我知道一个项目至少需要一个团队,没有架构师、没有专业美工,没有前端。什么也没有,怎么开展?好愁呀~~~ 由于市场不断扩大,销售人员的不断增加以及客户的积累。传统的EXCEL客户拜访表已不能满足现有的需求。因为传统的表单每次数据分析需要将四五十个销售的数据整理成报表需要大量的时间。 公司销售总监交给了我一个任务,想做一个企业客户管理系统便于数据分析,更好地开展工作。 接到这个任务,我有点蒙圈,负责工程中心做云平台开发的同事每天也忙得不可以开交,我去哪里找人来做这个项目。 我知道一个项目至少需要一个团队,没有架构师、没有专业美工,没有前端。什么也没有,怎么开展?好愁呀~~~ 领导交待下来的任务不能不做,只能硬着头皮上。 我理了理思路,确定目标是搭建一个企业客户管理数据分析平台。需要实现以下点: 1、如何让销售部门人员通过系统每日直接通过手机端就可以方便填写数据 2、如何让销售部门人员通过系统快速完成识别最佳客户? 3

Python爬虫数据分析最基本的可视化工具: Matplotlib 傻瓜都能操作!

瘦欲@ 提交于 2020-02-25 18:31:00
Matplotlib 是 Python 中最基本的可视化工具,官网里 (( https://matplotlib.org/ ) 有无数好资料,但这不是重点,本文肯定和市面上的所有讲解都不一样。 和 NumPy,SciPy, Pandas 一样,要用Matplotlib,首先引用其库。 先来类比一下人类和 Matplotlib 画图过程。 想想平时我们怎么画图,是不是分三步 找画板 用调色板 画画 Matplotlib 模拟了类似过程,也分三步 FigureCanvas Renderer Artist 上面是 Matplotlib 里的三层 API: FigureCanvas 帮你确定画图的地方 Renderer 帮你把想画的东西展示在屏幕上 Artist 帮你用 Renderer 在 Canvas 上画图 95% 的用户 (我们这些凡人) 只需用 Artist 就能自由的在电脑上画图了。 下面代码就是给 matplotlib 起了个别名 mpl,由于用 matplotlib.plot 比较多,也给它起了个别名 plt。 而 %matplotlib inline 就是在 Jupyter notebook 里面内嵌画图的, 在画图中,个人偏好百度 Echarts 里面的一组颜色,因此将其 hex 颜色代码定义出来留在后面用。其中 红色的 r_hex 和 深青色的 dt_hex 是大爱。

管理信息系统(二)2.5——2.6

冷暖自知 提交于 2020-02-24 08:50:13
中国大学MOOC同济大学管理信息系统 2.5的笔记 2.6的笔记 组织内信息系统 2.5决策支持系统1 下面开始介绍决策支持系统的第一部分内容。在组织当中有6类信息系统分别服务于组织的三个层次,其中 决策支持系统DSS是为中高层管理者提供决策支持的信息系统。 那么决策支持系统为什么会产生呢?我们来分析一下产生的原因,这是由于在组织运作过程当中常常会遇到许多决策问题,比如说组织采购原材料时,究竟应该选择哪家供应商?比如说如何根据客户的信用度确定是否给予贷款?还有怎样确定合理的库存量,以及如何选择最佳运输路径? 如何确定明年的产品需求?还有连锁门店应该选在什么位置比较合适?解决以上问题的过程就称为决策过程。我们之前所学习过的MIS,虽然管理者可以通过MIS获得经过分析、比较、汇总和简单计算后产生的信息,但是这些信息对于解决以上决策问题的支持力度显然是不够的,以至于管理者只能靠经验直觉来进行决策。正是基于以上的原因,所以决策支持系统应运而生。 下面我们来看一下决策支持系统的结构, 通常最基本的决策支持系统,包括数据管理部件、模型管理部件和用户接口部件。 在数据管理部件当中,由决策支持系统的数据库和数据管理系统组成,在模型管理部件通常由模型库和模型管理系统构成,在用户接口部件通常由用户界面和对话关系构成,通常包含DSS数据库和模型库的决策支持系统,我们称之为 两库决策支持系统

电商交易数据分析

邮差的信 提交于 2020-02-23 19:22:23
一.数据集介绍 数据来源于自kaggle的某电商真实交易数据,经过后期处理,不会造成任何隐私的泄露。该公司主要销售礼品,大部分出售对象是面向个人。 二.数据集字段介绍 数据包含104557条数据,10个字段,字段内容为: orderId:订单编号,订单编号均为数字。 userId:客户编号,每个客户编号由数字组成。 productId:产品编号,由整数组成。 cityId:客户所在城市编号。 price:商品价格。 payMoney:客户最终支付金额。 channelId:购买渠道编号。 deviceType:客户下单的设备类型。 createTime:订单下单时间。 payTime:客户支付时间。 三.分析内容 分析数据可以从两方面开始考虑,一个是维度,一个是指标,维度可以看做x轴,指标可以看成是y轴,同一个维度可以分析多个指标,同一个维度也可以做降维升维。 比如:分析商品维度可以通过价格、销售额以及销量这几个指标进行分析,而城市维度也可以通过销售额和销量这两个指标进行分析、渠道维度可以通过订单数、成交量等指标进行分析。 四. 数据处理分析过程 1.数据清洗 利用Python语言进行数据分析,开发工具有Jupyter Notebook。 导入加载数据分析需要使用的库 import numpy as np import pandas as pd import matplotlib