【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机

发布时间：2024-10-19 10:01

一、人工神经元

人工神经网络: 大量神经元以某种连接方式构成的机器学习模型。
第一个神经网络:1958年，计算科学家Rosenblatt提出 Perceptron(感知机)
$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第1张图片\"$

$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第2张图片\"$

感知机致命缺点: Minsky在1969年证明Perceptron无法解决异或问题。

$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第3张图片\"$

二、多层感知机

多层感知机的前向传播
$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第4张图片\"$
多层感知机的激活函数
无激活函数，网络退化为单层网络。
隐藏层加入激活函数，可避免网络退化。
$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第5张图片\"$

三、激活函数

作用
(1)让多层感知机成为真正的多层，否则等价于一层
(2)引入非线性，使网络可以逼近任意非线性函数(万能逼近定理，universal approximator )
万能逼近定理
激活函数需要具备以下几点性质:

连续并可导(允许少数点上不可导)，便于利用数值优化的方法来学习网络参数。
激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。
激活函数的导函数的值域要在合适区间内，不能太大也不能太小，否则会影响训练的效率和稳定性

常见激活函数
Sigmoid、Tanh函数的弊端：当函数落入到“饱和区”，其导数梯度近似为0，不利于前向传播，不利于权重的更新。
ReLU（神经网络中常用）
$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第6张图片\"$

四、反向传播

前向传播：输入层数据开始从前向后，数据逐步传递至输出层。
反向传播：损失函数开始从后向前，梯度逐步传递至第一层。

反向传播作用：用于权重更新，使网络输出更接近标签。
损失函数：目标函数

反向传播的原理：微积分中的链式求导法则。

学习率(Learning Rate): 控制更新步长
$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第7张图片\"$

五、损失函数

损失函数:衡量模型输出与真实的标签之间的差距。

损失函数
代价函数
目标函数
正则化：防止模型过于复杂，造成过拟合现象。

$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第8张图片\"$

常见的损失函数

MSE（均方误差）：常用在回归任务中。
CE（交叉熵）：常用在分类任务中。
信息熵：衡量两个分布的差异，描述信息的不确定信。
信息熵=所有可能取值的信息量的期望。
$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第9张图片\"$

相对熵：又称K-L散度，衡量两个分布的差异
交叉熵=信息熵+相对熵

$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第10张图片\"$ $\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第11张图片\"$

概率有两个性质:

概率值是非负的
概率之和等于1

交叉熵的好伙伴——Softmax函数: 将数据变换到符合概率分布的形式
Softmax函数: 将数据变换到符合概率分布的形式

Softmax操作:

取指数，实现非负
除以指数之和，实现之和为1

$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第12张图片\"$ $\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第13张图片\"$

六、权值初始化

权值初始化: 训练前对权值参数赋值，良好的权值初始化有利于模型训练
简便但错误的方法:初始化为全0，会导致模型的退化。

随机初始化法: 高斯分布随机初始化，从高斯分布中随机采样，对权重进行赋值,比如 N~(0, 0.01)
3σ准则: 数值分布在(μ-3σ,μ+3σ)中的概率为99.73%
$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第14张图片\"$
自适应标准差:自适应方法随机分布中的标准差
• Xavier初始化:《Understanding the difficulty of training deep feedforward neural networks 》
• Kaiming初始化:《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 》

$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第15张图片\"$

七、正则化

Regularization: 减小方差的策略，通俗理解为减轻过拟合的策略。
误差可分解为:偏差，方差与噪声之和。即误差 = 偏差 + 方差 + 噪声之和。
偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。
方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。

过拟合现象: 方差过大在训练集表现良好在测试集表现糟糕。

$\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第16张图片\"$ $\"【深度之眼】【神经网络基础知识】：神经网络基础与多元感知机_第17张图片\"$

正则化方法
L2 Regularization: weight decay(权值衰减)
Dropout: 随机失活
Dropout: 随机失活
优点:避免过度依赖某个神经元，实现减轻过拟合
随机:dropout probability (eg:p=0.5)
失活:weight = 0
注意事项:
训练和测试两个阶段的数据尺度变化
测试时，神经元输出值需要乘以 p

• Batch normalization: 《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》
• Layer Normalization: 《Layer Normalization》
• Instance Normalization: 《Instance Normalization: The Missing Ingredient for Fast Stylization》
• Group Normalization:《 Group Normalization》