正则化
正则化的目的
- 神经网络过度拟合了数据
- 减小网络误差
正则化的作用原理
逻辑回归中的正则化
- 最小化误差函数时,添加一个新的参数D,这个参数是关于W的,而没有关于b的
- 因为W本身是一个高维参数矢量,已经可以表达高偏差问题,W本身包含很多参数而b仅仅是单个数字,加了b没有太大影响反而使运算变得复杂
- L2正则化,表示取的是W的2-范数即
||W||2
, 所有元素的平方和再开根号 - L1正则化,表示取的是W的1-范数即
||W||1
, 所有元素的和 - 更倾向于使用L2正则化,
- 参数 λ 使用验证集或交叉验证来配置, 尝试各种各样的数据来寻找最好的参数,一般设置的值比较小
神经网络中的正则化
- Wi的“佛罗贝尼乌斯范数” 取的是Wi中所有元素的平方和开根号, 其实就是L2范数,只是不这么叫
- L2正则化已被称为权重衰减,因为反向传播后时Wi的权重会减小
为什么正则化可以防止过拟合
不好说,基本原理是减小部分神经元节点的权值,使整个神经网络更倾向于逻辑回归
λ增加,W减小,相应的节点权重减小, tanh 减小,在 0 附近近似为线性函数, 最后整体拟合程度下降