Spyder基于Python的数据分析

烂漫一生 提交于 2020-01-16 18:46:47

基于python的数据分析
1.为什么要进行数据分析
简答:人工智能,大数据等数据的采集需要数据 -----数据通过python分析而来–进行数据的清洗操作----建立数据模型Model
-----生成一个目标数据----预测未来—得到结果
2.企业数据存在的形式
(1):存在‘文件’例如:excel word csv txt…
(2):数据库 例如:mysql oracle DB2 SQLserver…
3.数据解析之read_table read_excel
(1):再数据分析里面分析读取文本数据用:
read_table --也可以快速读取大数据,海量数据,人工智能的数据集
read_excel --是指定读取excel类型的数据
传统的大数据开发就是再excel里面进行数据分析,所以excel可以处理大数据库~
(2):在以上两个方法里面。可以通过names属性给列起名称,方便数据的读取
(3):导入csv文件类型
i.处理数据的编码格式方法
通过EditsPlus或者UE开发工具可以进行编码的切换 —开发天天使用
对于大数据的数据集不能利用转码的代码机制去直接转码,这样导致服务器,数据等发送异常情况1 --建议使用第三方工具直接操作数据集–面试问
ii:导入csv的文件需要通过read_csv
思考:csv和word excel wps txt 等通过那个数据集更好?
csv自身可以处理编码问题
总结:read_table /excel/csv 等,全部返回值是DataFrame
4.到模块/导包的区别
from pandas import DataFrame
import pandas as pd
备注:to_csv不仅仅将手动创建的文件数据,也可以将受到创建的文件,通过数据存放至指定文件 建议大量使用!安全数据维护简单
df.to_csv(‘E:/pythonData01/hello.txt’)
df.to_csv(‘E:/pythonData01/hello.xls’)
df.to_csv(‘E:/pythonData01/hello.xlsx’)
注意:1.导出的文件格式不受限制,可以通过to_csv进行导出不同文件类型
2.通过csv可以导出任意类型的文件。所以csv导出文件首选
5: 除去重复数据
df10=pd.read_csv(‘d:/pythondata01/data.csv’)
newdfdata=df10.drop_duplicates()#此方法可以除去重复数据
print(‘新数据:’,newdfdata)

6:数据抽取 通过slice方法 ,但是数据抽取之前必须将数据转化为str
通过astype(str)-通过index抽取、----数据在列表里面
df11=read_csv(‘d:/pythondata01/datap.csv’)
#df[‘tel’] = df[‘tel’].astype(str);
#astype(str)表示的将数据转化为字符串 ----电话号码、身份证等都是字符串组成,而不是整数
#结果:还是需要将一个完整的数据进行拼接----拼接—自然是字符串操作!
7:数据字段拆分
newDF12 = df12[‘name’].str.split(’ ‘, 2, True);
newDF13 = df13[‘name’].str.split(’ ‘, 1, False);
总结 newDF12 = df12[‘name’].str.split(’ ‘, 2, True); --数据拆分可读性差
newDF13 = df13[‘name’].str.split(’ ', 1, False); --数据拆分可读性很好

好文要顶 关注我 收藏该文

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!