海口手机建站模板优就业seo课程学多久
RMSprop
- 相较于gradient descent with momentum,RMSprop的思想是,对于梯度震动较大的项,在下降时,减小其下降速度;对于震动幅度小的项,在下降时,加速其下降速度。
- 通过使用指数加权平均计算得到Sdw, SdbSdw,Sdb;使用他们来更新参数(如下图所示)
Sdw=βSdw+(1−β)dw2Sdw=βSdw+(1−β)dw2
Sdb=βSdb+(1−β)db2Sdb=βSdb+(1−β)db2
w:=w−αdwSdw−−−√+ϵw:=w−αdwSdw+ϵ
b:=b−αdbSdb−−−√+ϵb:=b−αdbSdb+ϵ
- ϵ=10−8ϵ=10−8,是为了保证分母不为零;dw2dw2和db2db2指的是element-wise