Pydata

Py之seaborn:数据可视化seaborn库的柱状图、箱线图(置信区间图)、散点图/折线图、核密度图/等高线图、盒形图/小提琴图/LV多框图的简介、使用方法之最强攻略(建议收藏)

烂漫一生 提交于 2021-02-01 10:50:45
Py之seaborn:数据可视化seaborn库的柱状图、箱线图(置信区间图)、散点图/折线图、核密度图/等高线图、盒形图/小提琴图/LV多框图的简介、使用方法之最强攻略(建议收藏) 导读 :数据可视化是以客观数据为主体,从数据角度窥探这个世界;目的是描述真实,洞察未知;从浩如烟海的复杂数据中理出头绪,化繁为简,变成看得见的财富, 要让行动的决策人在短时间内看得懂 ,从而实现更高效的决策。它主要是借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。 目录 一、如何选择图表类型? 二、seaborn库中单独绘图的11种函数讲解:数据可视化Seaborn库的柱状图、箱线图(置信区间图)、散点图/折线图、核密度图/等高线图、盒形图/小提琴图/LV多框图的简介、使用方法之最强攻略(建议收藏) 1、countplot函数:柱状图(类别特征计算重复个数) 2、catplot函数:柱状图、箱型图(置信区间)、散点图、小提琴图等 (1)、CatPlotByG (2)、CatPlotByHG 3、barplot函数:条形图可视化 (1)、BarPlot (2)

python中的.nc文件处理 | 05 NetCDF数据的进一步分析

元气小坏坏 提交于 2021-01-09 23:54:35
NetCDF数据的进一步分析 比较不同数据集、不同季节的气候数据 import os import numpy as np import pandas as pd import matplotlib.pyplot as plt import cartopy.crs as ccrs import cartopy.feature as cfeature import seaborn as sns import geopandas as gpd import earthpy as et import xarray as xr import regionmask # 绘制设置 sns.set(font_scale=1.3) # 字号 sns.set_style("white",{'font.family': 'Times New Roman'}) # 主题 读取数据集 2006-2099年月最高气温 data_path_monthly = 'http://thredds.northwestknowledge.net:8080/thredds/dodsC/agg_macav2metdata_tasmax_BNU-ESM_r1i1p1_rcp45_2006_2099_CONUS_monthly.nc' with xr.open_dataset(data_path_monthly) as

爬虫小技巧

余生颓废 提交于 2021-01-02 11:08:31
###爬虫小技巧 首先问一下大家都使用过哪些python爬虫模块呢?相信大多数人会回复requests或者scrapy吧,嗯我是说大多人。但是针对简单的爬虫我们还是习惯性的使用requests吧,或者升级版的requests_html,此时再使用scrapy,就有种杀鸡焉用宰牛刀的意味了。 现在我们有个简单的要求,去获取该网页 http://www.air-level.com/air/beijing/的一个表格数据,然后保存起来。 相信此时很多人应该拿起requests敲起来了吧。这里由于代码比较简单就说下思路。 首先,我们要成功访问该网页,然后解析网页表格里面的内容,然后存储数据,这里简单我们就存csv好了。好了思路好了我们就可以写自己代码了,如果对xpath解析数据不很熟悉,应该会稍微耗点时,人生苦短,对于这么简单的任务怎么能浪费过多的时间呢? 经过调查我找到了应对这种静态单页面的更好的方法。。。 ###pandas模块 ####简介 提到pandas更多联想到也许是它的数据分析功能,但是在查它的api的时候我发现了这个方法 read_html : 下面是这个函数及其参数 pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None,

pandas-pd.read_csv

こ雲淡風輕ζ 提交于 2020-12-03 11:57:36
read_csv()接受以下常见参数 : 参数 中文名 参数类型 默认参数 参数功能 说明 filepath_or_buffer various :文件路径、URL、或者 是read()函数返回的对象 sep 指定分隔符 str 默认是',' delimiter 定界符 str 默认是None 指定该参数,sep失效 delim_whitespace boolean 默认是False 指定空格或者'\t'是否作为分隔符使用 如果该参数指定为True,则delimiter失效 header 指定行号用于列名,默认指定是第0行作为列名。如果没有列名,则显式指定header = None names 默认是None 如果表格中没有列名,就显式指定header = None,然后由names= ["xx","xx"]指定列名。 index_col int or sequence or False 默认是None 用作行索引的列编号或者列名 当设定index_col = False时,强制pandas不使用第一个列作为行名 usecols list-like 或者callable 默认是None 返回列的子集,就是你可以指定哪些列返回,比如usecols = [1,3,5]或者usecols = [' xx','xx'] xx是列名 输入0、1这种数字则顺序就没了,若想保留列的顺序

问题解决:SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame

与世无争的帅哥 提交于 2020-11-15 20:42:00
在函数中修改: def countGroupWord(df_sentence): stop_words = list(stopwords.words( ' english ' )) .... df_sentence[ ' classId ' ]=df_sentence[ ' classId ' ] df_sentence['classId']=df_sentence['classId'] 会报错 SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy df_sentence['classId']=df_sentence['abstract'] 这个报警主要是说, 你当前对B的操作可能会改变另一个DataFrame A 我新建一个对象再赋值就不会报错了,如果不在函数里面可以直接写df_sentence[

利用 Python 进行数据分析(Python 数据分析)· 第 2 版

↘锁芯ラ 提交于 2020-10-01 03:13:14
译者: SeanCheney 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。 ApacheCN 机器学习交流群 629470233 ApacheCN 学习资源 Sklearn 与 TensorFlow 机器学习实用指南 在线阅读 PDF格式 EPUB格式 MOBI格式 代码仓库 下载本书代码(本书GitHub地址): https://github.com/wesm/pydata-book (建议把代码下载下来之后,安装好Anaconda 3.6,在目录文件夹中用Jupyter notebook打开) 本书是2017年10月20号正式出版的,和第1版的不同之处有: 包括Python教程内的所有代码升级为Python 3.6(第1版使用的是Python 2.7) 更新了Anaconda和其它包的Python安装方法 更新了Pandas为2017最新版 新增了一章,关于更高级的Pandas工具,外加一些tips 简要介绍了使用StatsModels和scikit-learn 对有些内容进行了重新排版。(译者注1:最大的改变是把第1版附录中的Python教程,单列成了现在的第2章和第3章,并且进行了扩充。可以说,本书第2版对新手更为友好了!) (译者注2:毫无疑问,本书是学习Python数据分析最好的参考书。本来想把书名直接译为《Python数据分析》,这样更简短

Python 数据分析三剑客之 Pandas(九):时间序列

被刻印的时光 ゝ 提交于 2020-08-17 09:00:43
CSDN 课程推荐:《迈向数据科学家:带你玩转Python数据分析》,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员;已出版《跟老齐学Python:轻松入门》《跟老齐学Python:Django实战》、《跟老齐学Python:数据分析》和《Python大学实用教程》畅销图书。 Pandas 系列文章(正在更新中…): Python 数据分析三剑客之 Pandas(一):认识 Pandas 及其 Series、DataFrame 对象 Python 数据分析三剑客之 Pandas(二):Index 索引对象以及各种索引操作 Python 数据分析三剑客之 Pandas(三):算术运算与缺失值的处理 Python 数据分析三剑客之 Pandas(四):函数应用、映射、排序和层级索引 Python 数据分析三剑客之 Pandas(五):统计计算与统计描述 Python 数据分析三剑客之 Pandas(六):GroupBy 数据分裂、应用与合并 Python 数据分析三剑客之 Pandas(七):合并数据集 Python 数据分析三剑客之 Pandas(八):数据重塑、重复数据处理与数据替换 Python 数据分析三剑客之 Pandas(九):时间序列 另有 NumPy、Matplotlib 系列文章已更新完毕,欢迎关注: NumPy 系列文章:

论文笔记:A Structured Self-Attentive Sentence Embedding

ぐ巨炮叔叔 提交于 2020-08-10 22:43:12
A Structured Self-Attentive Sentence Embedding ICLR 2017 2018-08-19 14:07:29 Paper : https://arxiv.org/pdf/1703.03130.pdf Code(PyTorch) : https://github.com/kaushalshetty/Structured-Self-Attention Video Tutorial (Youtube) : Ivan Bilan: Understanding and Applying Self-Attention for NLP | PyData Berlin 2018 Blog : 1. 机器之心 2. https://www.paperweekly.site/papers/notes/148 Related Papers : Self-Attention Generative Adversarial Networks Background and Motivation : 现有的处理文本的常规流程第一步就是:Word embedding。也有一些 embedding 的方法是考虑了 phrase 和 sentences 的。这些方法大致可以分为两种: universal sentence(general 的句子)和 certain task

开启天文之路的 4 个 Python 工具

本小妞迷上赌 提交于 2020-08-04 17:54:51
使用 NumPy、SciPy、Scikit-Image 和 Astropy 探索宇宙 天文学与 Python 对科学界而言,尤其是对天文学界来说,Python 是一种伟大的语言工具。各种软件包,如 NumPy 、 SciPy 、 Scikit-Image 和 Astropy ,(仅举几例) ,都充分证明了 Python 对天文学的适用性,而且有很多用例。(NumPy、Astropy 和 SciPy 是 NumFOCUS 提供资金支持的项目;Scikit-Image 是个隶属项目)。我在十几年前脱离天文研究领域,成为了软件开发者之后,对这些工具包的演进一直很感兴趣。我的很多前天文界同事在他们的研究中,使用着前面提到的大部分甚至是全部工具包。以我为例,我也曾为位于智利的超大口径望远镜(VLT)上的仪器编写过专业天文软件工具包。 最近令我吃惊的是,Python 工具包竟然演进到如此好用,任何人都可以轻松编写 数据还原 data reduction 脚本,产生出高质量的数据产品。天文数据易于获取,而且大部分是可以公开使用的,你要做的只是去寻找相关数据。 比如,负责 VLT 运行的 ESO,直接在他们的网站上提供数据下载服务,只要访问 www.eso.org/UserPortal 并在首页创建用户就可以享有数据下载服务。如果你需要 SPHERE 数据

python库之-------Pandas

喜你入骨 提交于 2020-04-30 22:18:20
包括两个数据结构:DataFrame和Series 官方文档地址: pandas https://pandas.pydata.org/pandas-docs/stable/index.html series https://pandas.pydata.org/pandas-docs/stable/reference/series.html dataframe https://pandas.pydata.org/pandas-docs/stable/reference/frame.html 一、  Pandas简介 1、Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。 2、Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来