import numpy as np import pandas as pd
1.通过外部文件导入数据表
df=pd.DataFrame(pd.read_csv('name.csv',header=1)) df=pd.DataFrame(pd.read_Excel('name.xlsx'))
2.通过填入数据生成数据表
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], "date":pd.date_range('20130102', periods=6), "city":['Beijing ', 'SH', ' guangzhou ', 'Shen zhen', 'shanghai', 'BEIJING '], "age":[23,44,54,32,34,32], "category":['100-A','100-B','110-A','110-C','2 10-A','130-F'], "price":[1200,np.nan,2133,5433,np.nan,4432]}, columns =['id','date','city','category','age', 'price'])
3.检查数据表的维度:shape属性
df.shape
结果输出 (6,6)
4.查看数据表信息
df.info()
5.查看数据表数据格式:dtypes属性
df.dtypes
6.空值检查isnull()函数(非空False,空True)
df.isnull() #对整张数据表检查 df['price'].isnull() #对price列进行检查
7.查看某列数据唯一值:unique()函数
df['price'].unique()
8.查看列名称:columns属性
9.查看数据表数值:values属性
10.查看前几行数据:head()函数
df.head() df.head(3)
11.查看后几行数据:tail()函数
二、数据清洗
1.处理空值dropna()与fillna()
#删除数据表中含有空值的行 df.dropna(how='any') #使用price均值对price列NA进行填充 df['price'].fillna(df['price'].mean()) #使用数字0填充数据表中空值 df.fillna(value=0)
2.清理空格
#清除price字段中的字符空格 df['price']=df['price'].map(str.strip)
3.大小写转换
price列大小写转换 df['price']=df['price'].str.lower()
4.更改数据格式:astype()函数
#更改数据格式 df['price'].astype('int')
5.更改列名称
#更改列名称category列更改为category-size df.rename(columns={'category': 'category-size'})
6.删除列的重复值drop_duplicates()函数
#删除后出现的重复值 df['price'].drop_duplicates()
7.数值修改以及替换
#数据替换 df['city'].replace('sh', 'shanghai')
三、数据预处理
1.数据表合并
#数据表df和df1匹配合并 df_inner=pd.merge(df,df1,how='inner') df_left=pd.merge(df,df1,how='left') df_right=pd.merge(df,df1,how='right') df_outer=pd.merge(df,df1,how='outer')
2.设置索引列
#设置索引列 df_inner.set_index('id')
3.排序(按索引,按数值)
#按特定列的值排序 df_inner.sort_values(by=['age']) #按索引列排序 df_inner.sort_index()
4.数据分组
#如果price列的值>3000,group列显示high,否则显示low df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low ') #对复合多个条件的数据进行分组标记 df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1
5.数据分列
#对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列 名称为category和size pd.DataFrame((x.split('-') for x in df_inner['category']),index=d f_inner.index,columns=['category','size']) #将完成分列后的数据表与原df_inner数据表进行匹配 df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru e)
四、数据提取
1.按标签提取(loc)
#按索引提取区域行数值 df_inner.loc[0:5] df_inner.loc[5] #重设索引 df_inner.reset_index() #设置日期为索引 df_inner=df_inner.set_index('date') #提取4日之前的所有数据 df_inner[:'2013-01-04']
2.按位置提取(iloc)
#使用iloc按位置区域提取数据 df_inner.iloc[:3,:2] #iloc函数除了可以按区域提取数据,还可以按位置逐条提取,前 面方括号中的0,2,5表示数据所在行的位置,后面方括号中的数表示所 在列的位置。 #使用iloc按位置单独提取数据 df_inner.iloc[[0,2,5],[4,5]]
3.按标签和位置提取(ix)
#使用ix按索引标签和位置混合提取数据 df_inner.ix[:'2013-01-03',:4]
- 按条件提取(区域和条件值)
#判断city列的值是否为beijing df_inner['city'].isin(['beijing']) #先判断city列里是否包含beijing和shanghai,然后将复合条件的数据提取出来。 df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
五、数据筛选
1.按条件筛选(与、或、非)
Python中使用loc函数配合筛选条件来完成筛选功能。配
合sum和count函数还能实现Excel中sumif和countif函数的功能。
#使用“与”条件进行筛选 df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beiji ng'), ['id','city','age','category','gender']] #使用“或”条件筛选 df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji ng'), ['id','city','age','category','gender']].sort(['age']) #对筛选后的数据按price字段进行求和 df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji ng'), ['id','city','age','category','gender','price']].sort(['age ']).price.sum() #使用“非”条件进行筛选,并按id排序 df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age', 'category','gender']].sort(['id']) #对筛选后的数据按city列进行计数 df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age', 'category','gender']].sort(['id']).city.count() #使用query函数进行筛选 df_inner.query('city == ["beijing", "shanghai"]') #对筛选后的结果按price进行求和 df_inner.query('city == ["beijing", "shanghai"]').price.sum() 12230
六、数据汇总
1.分类汇总
使用groupby函数进行分类汇总
#对所有列进行计数汇总 df_inner.groupby('city').count() #对两个字段进行汇总计数 df_inner.groupby(['city','size'])['id'].count() #对city字段进行汇总并计算price的合计和均值。 df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])
2.数据透视
七、数据统计
1.数据采样
2.描述统计
3.标准差
4.协方差
5.相关分析
八、数据输出
1.写入Excel
#输出到Excel格式 df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_c c')
- 写入csv
#输出到CSV格式 df_inner.to_csv('Excel_to_Python.csv')
来源:https://www.cnblogs.com/yiweiblog/p/12652558.html