import pandas as pd
import numpy as py
%matplotlib inline # 功能是可以内嵌绘图,并且可以省略掉plt.show()这一步
import matplotlib.pyplot as plt # 常用的画图模块
import seaborn as sns # 在大多数情况下使用seaborn能做出很具有吸引力的图,Seaborn视为matplotlib的补充
import re # 使用正则表达式
# 查看数据
data_user=pd.read_csv(r'C:\Users\a\Desktop\tianchi_mobile_recommend_train_user\tianchi_mobile_recommend_train_user.csv')
data_user.head()
# 查看理缺失值
missingTotal=data_user.isnull().sum()
print(missingTotal)
# 一致化处理
# 拆分数据集(将时间列拆分为date 和 hour)
data_user['date']=data_user['time'].map(lambda s:re.compile(' ').split(s)[0]) # map 映射函数,使用 lambda 匿名函数
data_user['hour']=data_user['time'].map(lambda s:re.compile(' ').split(s)[1])
data_user.head()
# 查看每一列的数据类型
data_user.dtypes
# 转化数据类型
data_user['date']=pd.to_datetime(data_user['date'])
data_user['time']=pd.to_datetime(data_user['time'])
data_user['hour']=data_user['hour'].astype('int64')
data_user.dtypes
# 异常值处理
data_user=data_user.sort_values(by='time',ascending
来源:CSDN
作者:段二胖
链接:https://blog.csdn.net/weixin_41542593/article/details/104435308