数据特征—相关性分析
分析连续变量之间的线性相关程度的强弱 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素是相关密切程度。 1,图示初判 2,Pearson相关系数(皮尔逊相关系数) 3,Sperman秩相关系数(斯皮尔曼相关系数) 1,图示初判 (1)变量之间的线性相关性 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy import stats% matplotlib inlinedata1 = pd.Series(np.random.rand(50)*100).sort_values()data2 = pd.Series(np.random.rand(50)*50).sort_values()data3 = pd.Series(np.random.rand(50)*500).sort_values(ascending = False)# 创建三个数据:data1为0-100的随机数并从小到大排列,data2为0-50的随机数并从小到大排列,data3为0-500的随机数并从大到小排列,fig = plt.figure(figsize = (10,4))ax1 = fig.add_subplot(1,2,1)ax1.scatter(data1, data2