“Debugging”: How to make sure gradient descent is working correctly
怎样确保梯度下降算法正确的运行
迭代次数从100-200时,损失函数变化较大;
迭代次数从300-400时,损失函数变化不大,说明算法在300处开始收敛
通过画出损失函数的变化图来判断算法正确与否以及什么时候收敛
如果损失函数出现下面情况
说明算法没有有效的工作,原因是α太大,使用较小的α。
Summary:
if α is too small: slow convergence.
if α is too large: J(θ) may not decrease on every iteration; may not converge.
总结:
如果α太小,收敛速度慢
如果α太大,J(θ) 可能不是每次迭代都下降,可能不收敛
选择α,尝试:0.001,0.003,0.01,0.03,0.1,0.3,1...