发布时间:2024-10-19 10:01
人工神经网络: 大量神经元以某种连接方式
构成的机器学习模型。
第一个神经网络:1958年,计算科学家Rosenblatt提出 Perceptron(感知机)
感知机致命缺点: Minsky在1969年证明Perceptron无法解决异或
问题。
作用
(1)让多层感知机成为真正的多层,否则等价于一层
(2)引入非线性
,使网络可以逼近任意非线性函数(万能逼近定理
,universal approximator )
万能逼近定理
激活函数需要具备以下几点性质:
连续并可导
(允许少数点上不可导),便于利用数值优化的方法来学习网络参数。简单
,有利于提高网络计算效率。值域
要在合适
区间内,不能太大也不能太小,否则会影响训练的效率和稳定性前向传播:输入层数据开始
从前向后,数据逐步传递至输出层。
反向传播:损失函数
开始从后向前,梯度
逐步传递至第一层。
反向传播作用:用于权重更新
,使网络输出更接近标签。
损失函数:目标函数
反向传播的原理:微积分中的链式求导法则
。
损失函数:衡量模型输出与真实的标签之间的差距。
损失函数
代价函数
目标函数
正则化:防止模型过于复杂,造成过拟合现象。
相对熵:又称K-L散度,衡量两个分布的差异
交叉熵=信息熵+相对熵
交叉熵的好伙伴——Softmax函数
: 将数据变换到符合概率分布的形式
Softmax函数
: 将数据变换到符合概率分布的形式
Softmax操作:
权值初始化: 训练前对权值参数赋值,良好的权值初始化有利于模型训练
简便但错误的方法:初始化为全0
,会导致模型的退化
。
随机初始化法
: 高斯分布随机初始化
,从高斯分布中随机采样,对权重进行赋值,比如 N~(0, 0.01)
3σ准则: 数值分布在(μ-3σ,μ+3σ)中的概率为99.73%
自适应标准差
:自适应方法随机分布中的标准差
• Xavier初始化:《Understanding the difficulty of training deep feedforward neural networks 》
• Kaiming初始化:《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 》
Regularization
: 减小方差的策略,通俗理解为减轻过拟合
的策略 。
误差可分解为:偏差,方差与噪声之和。即误差 = 偏差 + 方差 + 噪声
之和 。
偏差
度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
。
方差
度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响 。
噪声
则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。
过拟合现象
: 方差过大 在训练集表现良好 在测试集表现糟糕。
正则化方法
L2 Regularization: weight decay(权值衰减)
Dropout
: 随机失活
Dropout
: 随机失活
优点:避免过度依赖某个神经元,实现减轻过拟合
随机:dropout probability (eg:p=0.5)
失活:weight = 0
注意事项:
训练和测试两个阶段的数据尺度变化
测试时,神经元输出值需要乘以 p
• Batch normalization
: 《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》
• Layer Normalization
: 《Layer Normalization》
• Instance Normalization
: 《Instance Normalization: The Missing Ingredient for Fast Stylization》
• Group Normalization
:《 Group Normalization》