#导入必要的包
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

假设输入数据集最后一列是标签，其余列是特征列，训练集是train 测试集是test 二者分开输入，传入格式均为DF

def classify0_1(train,test,k):#train数据集   test 测试集   k=k值
    n = train.shape[1] - 1 
    m = test.shape[0] 
    result = [] 
    for i in range(m):
       #利用广播计算测试集每一行分别对训练集求距离 得到Series 并转换成list赋值给dist
        dist = list(((train.iloc[:, :n] - test.iloc[i, :n]) **2).sum(1))
        #得到距离数值与标签列生成的DataFram
        dist_l = pd.DataFrame({'dist': dist, 'labels': (train.iloc[:,n])})
        #按照距离排序（默认升序）截取前K行
        dr = dist_l.sort_values(by = 'dist')[: k]
        #对截取的前K个标签进行计数
        re = dr.loc[:, 'labels'].value_counts()
        #截取排名第一的标签赋值给result
        result.append(re.index[0])
        #创建一个Series
    result = pd.Series(result)
    #在测试集创建一列，并且赋值是result
    test['predict'] = result
    return test

#测试分类器是否能正常工作
def createDataSet():#创建一组数据
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

group, labels = createDataSet()#维度不一致用vstack进行纵拼接，横拼接用hstack
train = np.vstack([group, [0, 0]])
labels.append('B')

train

array([[1. , 1.1],
       [1. , 1. ],
       [0. , 0. ],
       [0. , 0.1],
       [0. , 0. ]])

labels

['A', 'A', 'B', 'B', 'B']

#然后生成DataFrame
train = pd.DataFrame({'x1': train[:, 0], 'x2': train[:, 1], 'labels':
labels})
train = train.reindex(['x1'] + ['x2'] + ['labels'], axis=1)#生成DataFrame是无序的需要用reindex 排序

#创建测试集
p1 = [1, 2]
p2 = [0, 1]
test = pd.DataFrame({'x1':p1, 'x2':p2})

test #注意 创建DataFrame时，值是看成列向量处理的

result=classify0_1(train,test,3)#分类器运行正常
result

让我们进一步完善我们的模型

可视化展示

#修改列标
result.columns = ['x1', 'x2', 'labels']
result

#合并数据集
train
input = pd.concat([train, result], ignore_index=True)#concat 拼接函数 ignore_index=True 忽略我们的索引 从新排列
input

#添加2列用于作图，第一列区分标签，第二例区分测试集与训练集
input['Ind1'] = 1
for i in range(input.shape[0]):
    if(input.iloc[i, 2] == 'B'):
        input.iloc[i, 3] = 0
input['Ind2'] = [1, 1, 1, 1, 1, 0.5, 0.5]
input

#注：scatter 画散点图可以针对每个点做定制化处理     s大小   c 颜色
plt.scatter(input.iloc[:, 0], input.iloc[:, 1],s=200*input.iloc[:, 4],
c=input.iloc[:, 3])

<matplotlib.collections.PathCollection at 0x2765348bb38>

用鸢尾花数据执行算法

iris = pd.read_csv("iris (1).txt",header = None)# header = 表明第一行不是标题
iris.columns = ['sepal_length_cm', 'sepal_width_cm', 'petal_length_cm',
'petal_width_cm', 'class']
iris.head()

iris.shape

(150, 5)

手动区分训练集与测试集

#s手动区分训练集与测试集
import random
def randSplit(dataSet, rate):# dataset 数据集    rate 训练集抽取比列
    #截取索引并打乱排序
    l = list(dataSet.index)
    random.shuffle(l)
    #将索引返回给数据
    dataSet.index = l 
    n = dataSet.shape[0] 
    m = int(n * rate)
    #分别抽取训练集与测试集
    train = dataSet.loc[range(m), :]
    test = dataSet.loc[range(m, n), :]
    #恢复索引
    dataSet.index = range(dataSet.shape[0])
    test.index = range(test.shape[0])
    return train, test

train, test=randSplit(iris,0.5)

train.shape

(75, 5)

test.shape

(75, 5)

classify0_1(train,test,3)#因为鸢尾花数据的良好特性，所以分类结果非常完美

用一个不那么完美的数据测试

date=pd.read_table("datingTestSet.txt",header=None)

发现数据需要进行去量纲，先写好归一化函数

#0-1标准化

#Z-score归一化

#sigmod压缩法

#标准化之后与原来数据集的最后一列拼接

#2-8比列切分测试集与训练集

#K值取2进行分类

下面进行模型效力判定

#首先封装一个准确率判断模型

accuracyCalculation(result)#准确率96.5%

Model accuracy is :0.965

0.965

二分类问题的混淆矩阵

#dataSet 为数据集   pos为数据集中为1 的变量   neg 为数据集中为 0 的变量 在执行中需要人为指定

#为了测试混淆矩阵我们抽取出只有2分类问题的数据

date_train,date_test=randSplit(dating_part,0.8)

result=classify0_1(date_train,date_test,2)

confusionMatrix(result,"smallDoses","didntLike")

模型准确率为:0.9925925925925926
模型精确度为:0.9859154929577465
模型召回率为:1.0
模型特异度为:0.9846153846153847
模型F指标为:0.9929078014184397

[0.9925925925925926,
 0.9859154929577465,
 1.0,
 0.9846153846153847,
 0.9929078014184397]

KNN模型计算距离之后实行一人一票制，下面我们加入权重，对各点的票数加以区分惩罚因子公式为w=1/d(x',x)**2

def classify0_2(train,test,k):

date_train,date_test=randSplit(date,0.8)

result1=classify0_1(date_train,date_test,3)

accuracyCalculation(result1)

Model accuracy is :0.755

0.755

accuracyCalculation(result2)

Model accuracy is :0.755

0.755

创建一个K值学习曲线

def kLearningCurve(classify, train, test, k):

date_train,date_test=randSplit(date,0.8)

kLearningCurve(classify0_1, date_train,date_test,10)

Model accuracy is :0.785
Model accuracy is :0.75
Model accuracy is :0.815
Model accuracy is :0.83
Model accuracy is :0.805
Model accuracy is :0.815
Model accuracy is :0.815
Model accuracy is :0.81
Model accuracy is :0.81
Model accuracy is :0.81

[0.785, 0.75, 0.815, 0.83, 0.805, 0.815, 0.815, 0.81, 0.81, 0.81]

kLearningCurve(classify0_2, date_train,date_test,10)

Model accuracy is :0.785
Model accuracy is :0.79
Model accuracy is :0.775
Model accuracy is :0.735
Model accuracy is :0.685
Model accuracy is :0.67
Model accuracy is :0.64
Model accuracy is :0.615
Model accuracy is :0.605
Model accuracy is :0.58

[0.785, 0.79, 0.775, 0.735, 0.685, 0.67, 0.64, 0.615, 0.605, 0.58]

可见加入惩罚因子之后模型表现较为稳定，下面试一试加入交叉验证看看效果

#首先利用index乱序方法对数据进行随机等分切分

#试一试效果

sp[2].shape

(100, 4)

sp[0].head()

在此基础上创建完整的交叉验证自定义函数

def crossVali(dataSet, randSplit, classify, n, k):

crossVali(date,randSplit_1,classify0_1, 10, 3)

Model accuracy is :0.78
Model accuracy is :0.75
Model accuracy is :0.79
Model accuracy is :0.78
Model accuracy is :0.75
Model accuracy is :0.81
Model accuracy is :0.84
Model accuracy is :0.77
Model accuracy is :0.82
Model accuracy is :0.84

(array([0.78, 0.75, 0.79, 0.78, 0.75, 0.81, 0.84, 0.77, 0.82, 0.84]),
 0.7929999999999999,
 0.001000999999999999)

由此可见数据集中训练集与测试集的切分问题对模型是有影响的

下面将交叉验证函数与K值学习曲线嵌套在一起，利用交叉验证的均值来修正K值学习曲线的准确率结果，来选取K值

def kLearningCurve_1(dataSet, classify, n, k):

kLearningCurve_1(date,classify0_1,10,10)

Model accuracy is :0.78
Model accuracy is :0.83
Model accuracy is :0.72
Model accuracy is :0.76
Model accuracy is :0.79
Model accuracy is :0.76
Model accuracy is :0.72
Model accuracy is :0.74
Model accuracy is :0.77
Model accuracy is :0.78
Model accuracy is :0.72
Model accuracy is :0.81
Model accuracy is :0.75
Model accuracy is :0.77
Model accuracy is :0.75
Model accuracy is :0.77
Model accuracy is :0.76
Model accuracy is :0.82
Model accuracy is :0.71
Model accuracy is :0.74
Model accuracy is :0.81
Model accuracy is :0.83
Model accuracy is :0.82
Model accuracy is :0.86
Model accuracy is :0.74
Model accuracy is :0.84
Model accuracy is :0.77
Model accuracy is :0.82
Model accuracy is :0.76
Model accuracy is :0.75
Model accuracy is :0.79
Model accuracy is :0.84
Model accuracy is :0.87
Model accuracy is :0.75
Model accuracy is :0.8
Model accuracy is :0.81
Model accuracy is :0.78
Model accuracy is :0.8
Model accuracy is :0.73
Model accuracy is :0.82
Model accuracy is :0.83
Model accuracy is :0.83
Model accuracy is :0.75
Model accuracy is :0.79
Model accuracy is :0.82
Model accuracy is :0.84
Model accuracy is :0.75
Model accuracy is :0.76
Model accuracy is :0.71
Model accuracy is :0.8
Model accuracy is :0.83
Model accuracy is :0.83
Model accuracy is :0.85
Model accuracy is :0.82
Model accuracy is :0.78
Model accuracy is :0.84
Model accuracy is :0.76
Model accuracy is :0.75
Model accuracy is :0.79
Model accuracy is :0.8
Model accuracy is :0.82
Model accuracy is :0.8
Model accuracy is :0.77
Model accuracy is :0.74
Model accuracy is :0.84
Model accuracy is :0.84
Model accuracy is :0.81
Model accuracy is :0.74
Model accuracy is :0.8
Model accuracy is :0.82
Model accuracy is :0.75
Model accuracy is :0.82
Model accuracy is :0.79
Model accuracy is :0.84
Model accuracy is :0.77
Model accuracy is :0.82
Model accuracy is :0.76
Model accuracy is :0.8
Model accuracy is :0.82
Model accuracy is :0.79
Model accuracy is :0.77
Model accuracy is :0.74
Model accuracy is :0.72
Model accuracy is :0.84
Model accuracy is :0.75
Model accuracy is :0.77
Model accuracy is :0.81
Model accuracy is :0.85
Model accuracy is :0.84
Model accuracy is :0.83
Model accuracy is :0.84
Model accuracy is :0.8
Model accuracy is :0.83
Model accuracy is :0.85
Model accuracy is :0.78
Model accuracy is :0.81
Model accuracy is :0.82
Model accuracy is :0.8
Model accuracy is :0.79
Model accuracy is :0.79

([0.7649999999999999,
  0.76,
  0.8,
  0.799,
  0.788,
  0.805,
  0.7979999999999999,
  0.796,
  0.792,
  0.8109999999999999],
 [0.7660049999999999,
  0.7611,
  0.80156,
  0.800489,
  0.7897160000000001,
  0.806065,
  0.7992159999999999,
  0.796784,
  0.7940360000000001,
  0.8114889999999999],
 [0.7639949999999999,
  0.7589,
  0.79844,
  0.7975110000000001,
  0.786284,
  0.8039350000000001,
  0.7967839999999999,
  0.795216,
  0.789964,
  0.810511])

K值的选取，一般选择拐点，且方差较小的K

import time

Model accuracy is :0.94
Model accuracy is :0.92
Model accuracy is :0.93
Model accuracy is :0.96
Model accuracy is :0.93
Model accuracy is :0.95
Model accuracy is :0.93
Model accuracy is :0.93
Model accuracy is :0.93
Model accuracy is :0.95
Model accuracy is :0.88
Model accuracy is :0.94
Model accuracy is :0.99
Model accuracy is :0.9
Model accuracy is :0.94
Model accuracy is :0.93
Model accuracy is :0.95
Model accuracy is :0.92
Model accuracy is :0.94
Model accuracy is :0.93
Model accuracy is :0.94
Model accuracy is :0.95
Model accuracy is :0.94
Model accuracy is :0.9
Model accuracy is :0.9
Model accuracy is :0.93
Model accuracy is :0.91
Model accuracy is :0.95
Model accuracy is :0.91
Model accuracy is :0.92
Model accuracy is :0.94
Model accuracy is :0.93
Model accuracy is :0.9
Model accuracy is :0.92
Model accuracy is :0.91
Model accuracy is :0.95
Model accuracy is :0.95
Model accuracy is :0.9
Model accuracy is :0.89
Model accuracy is :0.92
Model accuracy is :0.91
Model accuracy is :0.91
Model accuracy is :0.94
Model accuracy is :0.89
Model accuracy is :0.92
Model accuracy is :0.89
Model accuracy is :0.91
Model accuracy is :0.94
Model accuracy is :0.96
Model accuracy is :0.86
Model accuracy is :0.93
Model accuracy is :0.92
Model accuracy is :0.89
Model accuracy is :0.9
Model accuracy is :0.89
Model accuracy is :0.9
Model accuracy is :0.91
Model accuracy is :0.93
Model accuracy is :0.92
Model accuracy is :0.87
Model accuracy is :0.87
Model accuracy is :0.9
Model accuracy is :0.9
Model accuracy is :0.83
Model accuracy is :0.9
Model accuracy is :0.91
Model accuracy is :0.89
Model accuracy is :0.89
Model accuracy is :0.92
Model accuracy is :0.92
Model accuracy is :0.93
Model accuracy is :0.92
Model accuracy is :0.9
Model accuracy is :0.89
Model accuracy is :0.88
Model accuracy is :0.88
Model accuracy is :0.87
Model accuracy is :0.88
Model accuracy is :0.9
Model accuracy is :0.87
Model accuracy is :0.85
Model accuracy is :0.88
Model accuracy is :0.91
Model accuracy is :0.9
Model accuracy is :0.89
Model accuracy is :0.85
Model accuracy is :0.83
Model accuracy is :0.89
Model accuracy is :0.85
Model accuracy is :0.9
Model accuracy is :0.88
Model accuracy is :0.86
Model accuracy is :0.81
Model accuracy is :0.87
Model accuracy is :0.85
Model accuracy is :0.86
Model accuracy is :0.9
Model accuracy is :0.89
Model accuracy is :0.89
Model accuracy is :0.85
Wall time: 23min 41s

([0.9369999999999999,
  0.932,
  0.925,
  0.921,
  0.9129999999999999,
  0.9059999999999999,
  0.893,
  0.892,
  0.875,
  0.866],
 [0.9371409999999999,
  0.932776,
  0.9253450000000001,
  0.921409,
  0.9137609999999999,
  0.9063439999999999,
  0.893641,
  0.8923760000000001,
  0.875685,
  0.866624],
 [0.936859,
  0.931224,
  0.924655,
  0.920591,
  0.9122389999999999,
  0.9056559999999999,
  0.892359,
  0.891624,
  0.874315,
  0.865376])

date.iloc[:,3].value_counts()

didntLike     342
smallDoses    331
largeDoses    327
Name: 3, dtype: int64

KNN的sklean 方法

from sklearn.neighbors import KNeighborsClassifier

	sepal_length_cm	sepal_width_cm	petal_length_cm	petal_width_cm	class
0	5.1	3.5	1.4	0.2	Iris-setosa
1	4.9	3.0	1.4	0.2	Iris-setosa
2	4.7	3.2	1.3	0.2	Iris-setosa
3	4.6	3.1	1.5	0.2	Iris-setosa
4	5.0	3.6	1.4	0.2	Iris-setosa

sepal_length_cm	sepal_width_cm	petal_length_cm	petal_width_cm	class	predict
0	6.4	3.2	5.3	2.3	Iris-virginica
1	6.9	3.1	4.9	1.5	Iris-versicolor	Iris-versicolor
2	5.1	3.8	1.9	0.4	Iris-setosa	Iris-setosa
3	5.7	3.0	4.2	1.2	Iris-versicolor	Iris-versicolor
4	7.7	3.8	6.7	2.2	Iris-virginica	Iris-virginica
5	4.6	3.2	1.4	0.2	Iris-setosa	Iris-setosa
6	5.4	3.0	4.5	1.5	Iris-versicolor	Iris-versicolor
7	5.0	3.5	1.6	0.6	Iris-setosa	Iris-setosa
8	6.7	3.0	5.0	1.7	Iris-versicolor	Iris-virginica
9	5.2	4.1	1.5	0.1	Iris-setosa	Iris-setosa
10	5.2	3.5	1.5	0.2	Iris-setosa	Iris-setosa
11	5.1	3.8	1.6	0.2	Iris-setosa	Iris-setosa
12	7.6	3.0	6.6	2.1	Iris-virginica	Iris-virginica
13	4.4	3.0	1.3	0.2	Iris-setosa	Iris-setosa
14	4.4	3.2	1.3	0.2	Iris-setosa	Iris-setosa
15	7.3	2.9	6.3	1.8	Iris-virginica	Iris-virginica

	0	1	2	3
0	40920	8.326976	0.953952	largeDoses
1	14488	7.153469	1.673904	smallDoses
2	26052	1.441871	0.805124	didntLike
3	75136	13.147394	0.428964	didntLike
4	38344	1.669788	0.134296	didntLike

	0	1	2	3
0	0.448325	0.398051	0.562334	largeDoses
1	0.158733	0.341955	0.987244	smallDoses
2	0.285429	0.068925	0.474496	didntLike
3	0.823201	0.628480	0.252489	didntLike
4	0.420102	0.079820	0.078578	didntLike

	0	1	2	3	predict
0	0.354004	0.108129	0.946933	didntLike	didntLike
1	0.361191	0.489936	0.113069	largeDoses	largeDoses
2	0.564701	0.311536	0.236882	largeDoses	largeDoses
3	0.019436	0.223851	0.340515	smallDoses	smallDoses
4	0.126050	0.000000	0.957385	smallDoses	smallDoses

	x1	x2	labels	Ind1	Ind2
0	1.0	1.1	A	1	1.0
1	1.0	1.0	A	1	1.0
2	0.0	0.0	B	0	1.0
3	0.0	0.1	B	0	1.0
4	0.0	0.0	B	0	1.0
5	1.0	0.0	B	0	0.5
6	2.0	1.0	A	1	0.5

	0	1	2	3	predict
0	6131	0.608457	0.512220	smallDoses	smallDoses
1	11160	0.000000	0.722170	smallDoses	smallDoses
2	7313	7.646702	0.056513	smallDoses	smallDoses
3	55536	3.052505	1.335804	didntLike	didntLike
4	13438	2.355051	0.542603	smallDoses	smallDoses

	0	1	2	3
0	5017	7.513353	0.137348	smallDoses
1	18670	2.077169	1.019775	smallDoses
2	19739	2.816760	1.686209	smallDoses
3	6089	0.000000	1.689771	smallDoses
4	36172	9.948127	0.003663	largeDoses

	x1	x2	labels	Ind1	Ind2
0	1.0	1.1	A	1	1.0
1	1.0	1.0	A	1	1.0
2	0.0	0.0	B	0	1.0
3	0.0	0.1	B	0	1.0
4	0.0	0.0	B	0	1.0
5	1.0	0.0	B	0	0.5
6	2.0	1.0	A	1	0.5

A--最近邻分类器-KNN

假设输入数据集最后一列是标签，其余列是特征列，训练集是train 测试集是test 二者分开输入，传入格式均为DF

让我们进一步完善我们的模型

可视化展示

用鸢尾花数据执行算法

手动区分训练集与测试集

用一个不那么完美的数据测试

发现数据需要进行去量纲，先写好归一化函数

下面进行模型效力判定

二分类问题的混淆矩阵

KNN模型计算距离之后实行一人一票制，下面我们加入权重，对各点的票数加以区分 惩罚因子公式为w=1/d(x',x)**2

创建一个K值学习曲线

可见加入惩罚因子之后模型表现较为稳定，下面试一试加入交叉验证看看效果

在此基础上创建完整的交叉验证自定义函数

由此可见数据集中训练集与测试集的切分问题对模型是有影响的

下面将交叉验证函数与K值学习曲线嵌套在一起，利用交叉验证的均值来修正K值学习曲线的准确率结果，来选取K值

KNN模型计算距离之后实行一人一票制，下面我们加入权重，对各点的票数加以区分惩罚因子公式为w=1/d(x',x)**2

	x1	x2	labels	Ind1	Ind2
0	1.0	1.1	A	1	1.0
1	1.0	1.0	A	1	1.0
2	0.0	0.0	B	0	1.0
3	0.0	0.1	B	0	1.0
4	0.0	0.0	B	0	1.0
5	1.0	0.0	B	0	0.5
6	2.0	1.0	A	1	0.5