Coursera Machine Learning 学习笔记(十)

- Learning rate

       在梯度下降算法中,算法收敛所需要的迭代次数根据模型的不同而不同。由于我们不能提前预知,因此我们可以绘制出迭代次数和代价函数的对应关系图来观测算法在何时是趋于收敛。

      技术分享

       当然,也有一些可以自动检测是否收敛的方法,例如我们将代价函数的变化值与某个预先设定的阈值(如0.001)进行比较,从而判断是否收敛。但是通常情况下,观测上面的图表更加直观。

       梯度下降算法每次的迭代会受到学习率的影响,如果学习率技术分享过小,则达到收敛所需的迭代次数会非常高;如果学习率技术分享过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。

       因此,通常情况下我们尝试的学习率可以是:...,0.001,0.003,0.01,0.03,0.1,0.3,1,...

      



郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。