from numpy import *
import operator
import numpy as np
a = np.array([1,2,3,4,5,6])
print(a.shape)
def knn(k,testdata,traindata,labels):#traindata训练数据集 labels标签 k代表取多少个
traindatasize = traindata.shape[0]#shape函数查看数组有多少行列 [0]查看的是行数
dif = tile(testdata,(traindatasize,1))-traindata#计算差值 tile将训练集与测试集转换成相同维度
sqdif = dif**2 #差值平方
sumsqdif = sqdif.sum(axis=1)#axis = 各行差值求和
distance = sumsqdif**0.5#开方求出距离
sortidstance = distance.argsort()#排序
count = {}
for i in range(0,k):#经过k次循环
vote = labels[sortdistance[i]]#投票 每次取距离最小的
count[vote] = count.get(vote,0)+1 #计算最小值出现了多少次
sortcount = sorted(count.items(),key = operator.itemgetter(1),reverser=True)
#sorted(iterable[, cmp[, key[, reverse]]])
#投票的次数排序 key指定按照什么排序 reverser=True 为降序 默认为升序
return sortcount[0][0]#第0个元素第0个值
代码内容解释
from numpy import *
a = array([1,5,6,7])
#tile(a,2)#扩展a为两次 即原有列数*2
b = tile(a,(3,2))
#扩展a为 3行 8列 括号中3为行数,8列=2*4(原有列数)
b.shape
b.sum(axis=1)#各行求和
b.sum(axis=0)#各列求和
a.argsort()#排序
c = {}
c[5]=c.get(5,0)+1
c[5]=c.get(5,0)+1 #计算5出现了多少次
print(c)
count.items()#items() 方法以列表返回可遍历的(键, 值) 元组数组。
operator.itemgtter(1)
# sorted(iterable[, cmp[, key[, reverse]]])
# students为类对象的list,没个成员有三个域,用sorted进行比较时可以自己定cmp函数,例如这里要通过比较第三个数据成员来排序,代码可以这样写:
# students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
# sorted(students, key=lambda student : student[2])
'''
(1)iterable指定要排序的list或者iterable(可迭代的);
(2)cmp为函数,指定排序时进行比较的函数,可以指定一个函数或者lambda函数。
(3)key为函数,指定取待排序元素的哪一项进行排序,函数用上面的例子来说明,代码如下:
sorted(students, key=lambda student : student[2])
key指定的lambda函数功能是取元素student的第三个域(即:student[2]),因此sorted排序时,会以students所有元素的第三个域来进行排序,即15,
12,10来排序
有了上面的operator.itemgetter函数,也可以用该函数来实现,例如要通过student的第三个域排序,可以这么写:
sorted(students, key=operator.itemgetter(2))
sorted函数也可以进行多级排序,例如要根据第二个域和第三个域进行排序,可以这么写:
sorted(students, key=operator.itemgetter(1,2))
即先根据第二个域排序,再根据第三个域排序。
(4)reverse参数就不用多说了,是一个bool变量,表示升序还是降序排列,默认为false(升序排列),定义为True时将按降序排列。
'''
来源:oschina
链接:https://my.oschina.net/u/4279383/blog/3717377