发布时间:2022-08-19 11:53
仅供自己记录整理
偏差:欠拟合
训练集错误率50%,验证集错误率50%
方差:过拟合
训练集错误率1%,验证集错误率50%
训练神经网络的方法:
L2正则化:
其中lamata是正则化参数,通过调整lamata避免过拟合。
神经网络中的正则化:
如何使用该范数实现梯度下降:
此时的L2范数相当于权重衰减。
不用知道原因,想知道去看视频:https://www.bilibili.com/video/BV1V441127zE?p=5
lamata足够大的话w就可以取很小,w趋近于零的话深层网络的复杂结构就都没了,只剩下一条网络,可以防止过拟合
这个之前已经理解过了,就是随机失活一部分神经元。
注意一点,失活后要将该层的参数除以失活概率,比如失活后保留80%的神经元,就要将w·x/80%,以保证随机失活后均值不变。
注:测试阶段不使用dropout,因为测试阶段是想要根据训练得到的参数权重输出一个尽可能准确的值,并不希望输出结果随机。
与L2正则化类似。
两种dropout方法:
(1)易于过拟合的层设置失活率更高。缺点:需要更多参数
(2)某些层用dropout,某些层不用。
dropout的缺点:无法确定代价函数J,无法确定损失函数是否收敛。=>所以可以先关闭dropout,确保损失收敛后再打开。