数据分析

数据分析概括

[亡魂溺海] 提交于 2020-02-22 23:24:54
数据分析 数据分析是使用适当的统计分析方法对收集来的大量数据进行分析,从中提取有用信息和形式结论,并加以详细研究和概括总结的过程 数据分析的目的在于,将隐藏在一大批看似杂乱无章的数据信息集中提炼出来有用的数据,以找出研究对象的内在规律 在统计学领域中,数据分析可以划分为如下三类: 描述性数据分析:从一组数据中,可以摘要并且描述这份数据的集中和离散情形 探索性数据分析:从海量数据中找出规律,并产生分析模型和研究假设 验证性数据分析:验证科研假设测试所需的条件是否达到,以保证验证性分析的可靠性 数据分析的应用场景 数据分析的流程 : Pyhton做数据分析的优势 : 1.语法简单精炼,适合初学者 2.拥有一个巨大且活跃的科学计算社区 3.拥有强大的通用编程能力 4.人工智能时代的通用语言 5.方便对接其他语言 Anaconda的介绍 Anaconda 是一个提供python开发所需的工具包,包括python/IPython/CPython/Conda等180个依赖项,同时支持 Linux,Mac,Windows三大平台 Anaconda是一个可以便捷获取和管理包,同时对环境可以统一管理的发行版本 Anconda的特点 : 包含了众多流行的科学、数学、工程和数据分析的Python库 完全开源和免费 对于学术用途,可以申请免费的License 全平台支持Linux、Windows、Mac

高性能高扩展的千亿级实时数据仓库全实现(通用大数据企业解决方案)

我的梦境 提交于 2020-02-22 20:15:40
课程介绍 数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集,从逻辑上讲数据仓库和数据库是没有什么区别的。 为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。 (and薇:ityk8_520) 数据仓库的应用 1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。 2.数据化运营、精准运营。 3.广告精准、智能投放。 随着我们从IT时代步入DT时代,数据积累量也与日俱增,同时伴随着互联网的发展,越来越多的应用场景产生,传统的数据处理、存储方式已经不能满足日益增长的需求。而互联网行业相比传统行业对新生事物的接受度更高、应用场景更复杂, 因此基于大数据构建的数据仓库最先在互联网行业得到了尝试。 高性能高扩展的亿级电商全端实时数据仓库全实现(PC、移动、小程序) ,以热门的互联网电商实际业务应用场景为案例讲解,对电商数据仓库的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、月大盘收入报表、高付费用户分析报表、流量域多方位分析、营销域多方位分析、实时排行榜指标分析、用户主题分析、店铺主题时间区间分析等,数据分析涵盖全端(PC、移动、小程序

大众点评数据分析

会有一股神秘感。 提交于 2020-02-22 18:12:10
大众点评数据分析项目完整流程 (一)项目背景 在大学的时候,每天都要面对一个世纪难题所困扰,那就是:中午吃什么?晚上吃什么?于是乎突发奇想,就想要统计一下全国一二线城市美食店的总体水平,吃不到也要看看别人家的餐桌摆的都是什么,哪些精品餐厅我还不知道,酒香不怕巷子深,我要把你们统统挖出来。 (二)项目介绍 本项目主要是对大众点评中全国范围内一二线城市美食信息进行分析,暂时不考虑其它线的城市。整个项目分为项目目的的确定、数据的采集、数据的预处理、对数据的分析和项目总结这五个部分。在整个项目流程中主要用到了八爪鱼采集器、Excel 和Python这三样工具。 (三)项目完整流程 1.项目目的 该项目主要是解决以下三个问题: (a)哪个城市的店家数量最多,占比情况如何? (b)分析这些城市的物价水平如何以及哪些美食类型最受欢迎? (c)分析城市对美食品牌评分的影响? 2.数据的采集 在采集的过程中,由于大众点评不可以一次性获取目标城市的美食信息,为了采集到所有的目标数据,本人是在链家网开始页面上设置了筛选条件后,用八爪鱼采集器分批次对大众点评上所有的目标数据进行的采集,最终一共采集到了585915条数据。 3.数据的预处理 本人是用Excel 2010这个工具对八爪鱼采集器采集到的脏数据进行的清洗,为避免在数据清洗的过程出现对数据的误操作,本人分批次对采集到的数据进行了清洗

Python数据分析基础之Excel(1)

浪子不回头ぞ 提交于 2020-02-21 22:40:37
学完了CSV文件,终于到了Excel,以前也接触过Excel,但仅限于做一些简单的表格,这一章开始学用Python来操作Excel文件。但与csv模块不同,Python中没有处理Excel文件(就是带有.xls和.xlsx扩展名的文件)的标准模块。所以需要xlrd和xlwt的拓展包。他们俩使得Python对Excel时期型数据的支持非常好。 下来开始学习第一部分。 筛选特定行 有些时候,你并不需要Excel文件中的所有行。例如,你可能只需要一个包含特定词或者数值的那些行,或者,你可能只需要那些与一个具体日期相关联的行。在这些情况下,可以使用Python筛选掉不需要的行,只保留需要的行。 1.行中的值满足某个条件 1 #!/usr/bin/env python3 2 import sys 3 from datetime import date 4 from xlrd import open_workbook, xldate_as_tuple 5 from xlwt import Workbook 6 7 input_file = sys.argv [ 1 ] 8 output_file = sys.argv [ 2 ] 9 10 output_workbook = Workbook ( ) 11 output_worksheet = output_workbook.add_sheet

【数据分析实战】数据分析及可视化实战:豆瓣电影数据分析

坚强是说给别人听的谎言 提交于 2020-02-21 18:39:04
本次数据: 来源豆瓣电影 40万条短评 50条以上评论电影1100多部 数据储存在sqlite数据库里 左侧点开Tables,可以看到有三张表 双击comment 在右侧点击数据标签可以查看 观察每行都有哪些数据 ID: 序号 TIME: 时间 MOVIEID: 豆瓣电影ID RATING: 该评论打分 CONTENT: 评论内容 CREATOR: 评论者 ADD_TIME:添加时间 “结巴”中文分词 https://github.com/fxsjy/jieba • 支持三种分词模式: • 精确模式,试图将句子最精确地切开,适合文本分析; • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常 快,但是不能解决歧义; • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召 回率,适合用于搜索引擎分词。 • 支持繁体分词 • 支持自定义词典 • MIT 授权协议 安装: pip install jieba pip3 install jieba import sqlite3 import pandas as pd import jieba from pyecharts . faker import Faker from pyecharts . charts import WordCloud from pyecharts import options as opts

python数据分析学习(1)pandas一维工具Series讲解

隐身守侯 提交于 2020-02-20 00:20:04
目录 一:pandas数据结构介绍   python是数据分析的主要工具,它包含的数据结构和数据处理工具的设计让python在数据分析领域变得十分快捷。它以NumPy为基础,并对于需要类似 for循环 的大量数据处理的问题有非常快捷的数组处理函数。   但是pandas最擅长的领域还是在处理表格型二维以上不同数据类型数据。   基本导入语法: import pandas as pd    pandas标记缺失值或NA值为NaN。   有关python语法,数据分析简介,ipython,jupyter notebook和Numpy在我的CSDN博客: 计科李昂CSDN 已经向大家讲解了。 一:pandas数据结构介绍 1.Series   Series是一种一维的数组型对象,它包含了一个值序列与数组标签索引。下面介绍有关的知识,代码是示例。   (1)生成Series对象 a = pd.Series() # 括号里传入索引对象   (2)获取值和索引 a.values # 获取值 a.index # 获取索引   (3)为序列创建索引序列 b = pd.Series([],index=[]) # 括号里传入索引对象和索引序列   (4)通过标签进行索引 c1['a'] # 普通索引 c2[[]] # 以序列标签进行索引   (5)使用NumPy的函数或NumPy风格操作 d

小白学 Python 数据分析(5):Pandas (四)基础操作(1)查看数据

流过昼夜 提交于 2020-02-19 11:03:38
在家为国家做贡献太无聊,不如跟我一起学点 Python 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):Pandas (二)数据结构 Series 小白学 Python 数据分析(4):Pandas (三)数据结构 DataFrame 引言 最近这个系列有段时间没更新,理由也就不找了,总结就一点,懒!懒得学习! 我就是这么一个能勇于发现并且承认错误的人。 不过从这篇开始,我又恢复更新了,手动滑稽一下:) 接下来小编要分享一些 Pandas 的基础操作,可能会有些无聊,不过还是希望有兴趣的同学能对照着代码自己动手敲一下。 闲话不多聊,下面开始正题。 查看数据 前面的两篇内容中,我们介绍了 Pandas 的两种数据结构,本篇的内容将主要介绍一些有关于 DataFrame 的查找操作,毕竟 DataFrame 是一个二维类似于表一样的数据结构,我们平时会更多的使用 DataFrame 。 首先第一部还是导入 Pandas 与 NumPy ,并且要生成一个 DataFrame ,这里小编就简单的使用随机数的形式进行生成,代码如下: import numpy as np import pandas as pd dates = pd.date

【Python数据分析】数值计算和统计基础

試著忘記壹切 提交于 2020-02-17 23:57:15
目录 1.axis与skipna参数的使用 2.常用统计方法 3.求累计值:cumsum(累计和),累计积 4.唯一值:unique 5.值计数:value_counts() 6.成员资格:isin() 1.axis与skipna参数的使用 注意: np.nan 表示空值 # 建立数据集 import numpy as np import pandas as pd df = pd.DataFrame({'key1':[4,5,6,np.nan,2], # np.nan表示空值 'key2':[1,2,np.nan,15,10], 'key3':[1,2,3,'m','n'], 'key4':['a1','a2','a3','a4','a5']},index = ['a','b','c','d','e'] ) print(df) print('-----------------分割线-------------------') # 打印每列数据类型 print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype,df['key4'].dtype) # 求整体平均值(只会对数字列进行统计) print('----------------整体平均------------------') print(df.mean()) # 根据索引求平均值

python高级数据分析基础知识:pandas及其基本应用总结整理

女生的网名这么多〃 提交于 2020-02-16 23:48:16
二、numpy及其基本应用总结整理 Series篇 2.1 创建Series数据 2.1.1 Series数据的基本概念、结构与新变量的创建 2.1.2 python使用字典数据生成Series数组并用isnull/notnull方法检测是否为空 2.1.3 通过name属性给Series对象和索引命名 2.2 读取Series数据 2.2.1 python中获取Series数组中的值(单个元素或者切片元素) 2.3 Series数组的操作 2.3.1 使用data.value_counts()方法对Series数组中的重复元素进行统计 2.3.2 python用in关键词判断某个数是否存在于Series的索引(index)中 2.3.3 对Series数组进行一元及二元数学运算 DataFrame篇 2.4 创建DataFrame 2.4.1 创建DataFrame:python中用字典初始化DF数据帧 2.4.2 python中使用columns参数指定DataFrame数据帧的列(字段)顺序 2.4.3 python使用index参数设置每一行的索引名 2.5 DataFrame的增删改查 2.5.1 python中用columns参数获取DataFrame各列的表头名 2.5.2 python中DataFrame的“增删改查”之“查”