公益学习AI打卡之Task3

1.过拟合、欠拟合及解决方法

在机器学习的过程中，机器学习的效果和实际的真实值总会存在一部分的偏差。训练过程中出现的偏差叫做训练误差，而在测试过程中出现的误差称之为泛化误差。在模型的数据准备期，会将数据集分为训练数据和测试数据，测试数据就是从总体随机选取的一部分数据。当总体数据集的数量比较小时，可使用K折交叉验证（K-fold cross-validation的方法：
首先把总体数据集平分成为K等份，然后依次取出其中的一份作为测试数据集，剩下的作为训练数据集，然后进行K次训练和测试，因此每次实验中用于训练和测试的数据集都不同，最后将K次的实验结果再求取平均值。
在模型的训练的过程中，由于函数线性拟合，最容易出现的两个问题就是：欠拟合和过拟合
欠拟合：由于数据集的样本不足，或者训练周期较短与问题的模型复杂度较低，导致最后的训练误差和泛化误差都比较小
过拟合：模型在训练的过程中，过度拟合训练数据集，从而有很低的训练误差，但是泛化误差确极高。
知道了过拟合和欠拟合的原因，则可以提出对应的方法来解决这个问题。
首先针对于过拟合问题，如果是训练数据集太小而导致的，主要的解决方案就是增大数据集，而训练数据集的大小足够，那么采用丢弃法（Dropout）那防止过拟合，其原理就是训练时随机选取隐藏层中的部分神经元失效，但在测试要利用所有的神经元。
然后是欠拟合问题，主要则是增加问题的模型复杂度，尽量避免使用线性回归来拟合，而多使用多项函数式对问题进行求解。
L2范数正则化：在损失函数中添加L2范式惩罚项，可以有效的防止训练时候出现过拟合和欠拟合，使损失函数可以达到最小化。L2范数惩罚项是指的神经网络中所有的权重参数与一个常数的乘积，该常数为一超参数，需要在训练过程中寻求最佳值。

2.梯度消失和梯度爆炸

深度学习过程中，最常见的问题就是梯度消失和梯度爆炸
由于在一个深度的神经网络结构中，神经网络的层数比较多。例如有一个中间隐藏层为30层的深度神经网络，假设X为输入，每一层的权重参数为标量，当其为5时，则第30层的输出结果为output = 5^30* X，出现梯度计算爆炸；当其为0.1时，第30层的输出结果为output = 0.1 ^30* X，几乎趋近于0，出现梯度消失。

神经网络训练之前，对于网络中的权重参数初始化有两种方法。一是直接利用模块随机初始化，可采用torch中的nn.init.normal()进行初始化，其初始化的参数按照正态分布，需要设定期望和方差。二是利用Xavier随机初始化，假设一个全连接层输入为a，输出为b，则其采用均匀分布的公式为：
在这里插入图片描述
根据该公式初始化模型参数以后，每层的梯度方差不受输入输出个数的影响。

环境因素：
协变量偏移：训练时候用的真实图片，测试的时候变成了卡通图片
标签偏移：训练时只有关于p(y)的训练过程，测试的时候却有q(y)的标签
概念偏移：由于地区不同，对于一些事务的定义不一样

3.卷积神经网络基础

卷积神经网络主要时用于输入特征是多维的机器学习任务中，尤其在图像处理方面。图像的输入通常都是多个二维数组。灰白图像用一个二维数组即可表示，0代表黑色的像素点，1代表白色的像素点。而对于彩色RGB图像，每个像素点的每一种颜色的数值(0-255)都有一个二维数组来表示，所以需要3个二维数组来表示图像输入，需要的二维数组个数可以称之为通道数。
卷积：对于输入的二维数据进行卷积操作，本质是对两个数组进行互相关运算，主要有三个要素：卷积核，填充和步幅。
例子：输入的数组大小（3，3），卷积核的大小维（2，2），填充的大小为（1，1），表示行的上下各加1行0，列的左右各加1列0，步幅（1，1）表示行方向和列方向移动的步幅分别为1.
在这里插入图片描述
第一个输出结果0的位置是由图中蓝色部分的元素分别与卷积核中的元素相乘的和，然后依此类推，最后得到的输出二维数组成为输入图像的特征图。而对应输出元素中的输入子矩阵称之为感受野。
当输入的是多通道图像时，情况如下：
在这里插入图片描述
对应通道的输入卷积以后还需要结果相加，才是最后的输出。
其中卷积为（n,c，1，1）时比较特殊，n为输出的结果的通道数,c为卷积和的通道数，一个多通道输入使用（1，1）卷积后，图像大小不变，但可以达到对通道数的降维。

池化：池化中同样包含了池化核，填充，步幅，操作的原理和卷积差不多，但与卷积不同的是，其对应的区域的计算没有卷积复杂，通常的池化操作只包含了最大池化，平均池化。最大池化举例如下：池化核（2，2），填充（0，0），步幅（1，1）
在这里插入图片描述
平均池化只是将其中取最大值的过程改为取平均值即可。
通过卷积和池化操作，可以有效的提取多通道图像中的纹理，颜色等图像特征，这也是深度学习广泛用于图像处理方面的重要原因之一。

来源：CSDN

作者：小向的Bug人生

链接：https://blog.csdn.net/weixin_44435902/article/details/104351581

标签

机器学习

卷积

卷积神经网络

深度学习