机器学习笔记:Python底层实现KNN

小白纯新手,自学了sklearn,想要挑战用python手写机器学习中的主要算法。


借助python自带的pandas库导入数据,很简单。用的数据是下载到本地的红酒集。

代码如下(示例):

import pandas as pd def read_xlsx(csv_path):     data = pd.read_csv(csv_path)     print(data)     return data

2.归一化

KNN算法中将用到距离,因此归一化是一个重要步骤,可以消除数据的量纲。我用了归一化,消除量纲也可以用标准化,但是作为新手,我觉得归一化比较简单。

其中最大最小值的计算用到了python中的numpy库,pandas导入的数据是DateFrame形式的,np.array()用来将DateFrame形式转化为可以用numpy计算的ndarray形式。

代码如下(示例):

import numpy as np def MinMaxScaler(data):     col = data.shape[1]     for i in range(0, col-1):         arr = data.iloc[:, i]         arr = np.array(arr) #将DataFrame形式转化为ndarray形式,方便后续用numpy计算         min = np.min(arr)         max = np.max(arr)         arr = (arr-min)/(max-min)         data.iloc[:, i] = arr     return data

3.分训练集和测试集

先将数据值和标签值分别用x和y划分开,设置随机数种子random_state,若不设置,则每次运行的结果会不相同。test_size表示测试集比例。

def train_test_split(data, test_size=0.2, random_state=None):     col = data.shape[1]     x = data.iloc[:, 0:col-1]     y = data.iloc[:, -1]     x = np.array(x)     y = np.array(y)     # 设置随机种子,当随机种子非空时,将锁定随机数     if random_state:         np.random.seed(random_state)         # 将样本集的索引值进行随机打乱         # permutation随机生成0-len(data)随机序列     shuffle_indexs = np.random.permutation(len(x))     # 提取位于样本集中20%的那个索引值     test_size = int(len(x) * test_size)     # 将随机打乱的20%的索引值赋值给测试索引     test_indexs = shuffle_indexs[:test_size]     # 将随机打乱的80%的索引值赋值给训练索引     train_indexs = shuffle_indexs[test_size:]     # 根据索引提取训练集和测试集     x_train = x[train_indexs]     y_train = y[train_indexs]     x_test = x[test_indexs]     y_test = y[test_indexs]     # 将切分好的数据集返回出去     # print(y_train)     return x_train, x_test, y_train, y_test

4.计算距离

此处用到欧氏距离,pow()函数用来计算幂次方。length指属性值数量,在计算最近邻时用到。

def CountDistance(train,test,length):     distance = 0     for x in range(length):         distance += pow(test[x] - train[x], 2)**0.5     return distance

5.选择最近邻

计算测试集中的一条数据和训练集中的每一条数据的距离,选择距离最近的k个,以少数服从多数原则得出标签值。其中argsort返回的是数值从小到大的索引值,为了找到对应的标签值。

tip:用numpy计算众数的方法

import numpy as np #bincount():统计非负整数的个数,不能统计浮点数 counts = np.bincount(nums) #返回众数 np.argmax(counts)

少数服从多数原则,计算众数,返回标签值。

def getNeighbor(x_train,test,y_train,k):     distance = []     #测试集的维度     length = x_train.shape[1]     #测试集合所有训练集的距离     for x in range(x_train.shape[0]):         dist = CountDistance(test, x_train[x], length)         distance.append(dist)     distance = np.array(distance)     #排序     distanceSort = distance.argsort()     # distance.sort(key= operator.itemgetter(1))     # print(len(distance))     # print(distanceSort[0])     neighbors =[]     for x in range(k):         labels = y_train[distanceSort[x]]         neighbors.append(labels)         # print(labels)     counts = np.bincount(neighbors)     label = np.argmax(counts)     # print(label)     return label

调用函数时:

getNeighbor(x_train,x_test[0],y_train,3)

 6.计算准确率

用以上KNN算法预测测试集中每一条数据的标签值,存入result数组,将预测结果与真实值比较,计算预测正确的个数与总体个数的比值,即为准确率。

def getAccuracy(x_test,x_train,y_train,y_test):     result = []     k = 3     # arr_label = getNeighbor(x_train, x_test[0], y_train, k)     for x in range(len(x_test)):         arr_label = getNeighbor(x_train, x_test[x], y_train, k)         result.append(arr_label)     correct = 0     for x in range(len(y_test)):         if result[x] == y_test[x]:            correct += 1     # print(correct)     accuracy = (correct / float(len(y_test))) * 100.0     print("Accuracy:", accuracy, "%")     return accuracy

总结

KNN算是机器学习中最简单的算法,实现起来相对简单,但对于我这样的新手,还是花费了大半天时间才整出来。

在github上传了项目:https://github.com/chenyi369/KNN