当前位置: 首页 > news >正文

网站建设消费者群体分析系统优化大师下载

网站建设消费者群体分析,系统优化大师下载,俄语免费网站制作,吴忠建设网站随机梯度下降Batch Gradient Descent(BGD)BGD在训练中,每一步迭代都是用训练集中的所有数据,也就是说,利用现有参数对训练集中的每一个输入生成一个估计输出,然后跟实际输出比较,统计所有误差,求平均以后得到平均误差,并以此作为更新参数的依据.优点: 由于每一步都利用了训练集…

2621645dca854850798ab7316c920a05.png

随机梯度下降

Batch Gradient Descent(BGD)

BGD在训练中,每一步迭代都是用训练集中的所有数据,也就是说,利用现有参数对训练集中的每一个输入生成一个估计输出,然后跟实际输出比较,统计所有误差,求平均以后得到平均误差,并以此作为更新参数的依据.

  • 优点: 由于每一步都利用了训练集中的所有数据,因此当损失函数达到最小值以后,能够保证此时计算出的梯度为0,换句话说,就是能够收敛(曲线比较平滑),因此,使用BGD时不需要逐渐降低学习率.
  • 缺点: 由于每一步都要用到所有训练数据,因此随着数据集的增大,运行速度会越来越慢.

SGD与MBGD

MBGD是指在训练中,每次使用小批量(一个小批量训练m个样本)的随机采样进行梯度下降.训练方法与BGD一样,只是BGD最后对训练集的所有样本取平均,而MBGD只对小批量的m个样本取平均.SGD是指在训练中每次仅使用一个样本.MBGD与SGD统称为SGD.因为小批量不能代表整个训练集,使得梯度估计引入噪声源,因此SGD并不是每次迭代都向着整体最优化方向.虽然SGD包含一定的随机性(表现为损失函数的震荡),但是从期望来看,它是等于正确的导数的(表现为损失函数有减小的趋势).

  • 优点: 训练速度比较快
  • 缺点: 在样本数量较大的情况下,可能只用到了其中一部分数据就完成了训练,得到的只是局部最优解.另外,小批量样本的噪声较大,所以每次执行梯度下降,并不一定总是朝着最优的方向前进.

5ae31ff6c6ea61cbcecee1cda43c4a3d.png

参数更新

其中,

代表学习率,
表示
时刻的参数,
代表参数
时刻的导数,
代表参数的更新速度。

Momentum

在训练中,采取的策略与SGD一样,不同的是学习率的更新方式。动量的参数更新方式为:

一般取值0.9.

直观理解为:

7e5f363952c295190adb8b329fab76e8.png

动量方法旨在加速学习(加快梯度的下降速度),特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。

dd2721a0412a79ee286b1a25c98415e0.gif

动量SGD算法引入

使每一次的参数更新方向不仅仅取决于当前位置的梯度,还受到上一次参数更新方向的影响(如上图所示)。在某一维度上,当梯度方向不变时,更新速度变快,当梯度方向有所改变时,更新速度变慢,从而加快收敛速度,减少震荡。

带有动量的SGD的优点:

  • 加快收敛速度
  • 抑制梯度下降时上下震荡的情况
  • 通过局部极小点
分析:假设任意时刻参数的梯度均为
,则使用SGD时,
时刻的梯度
,Momentum算法的梯度
.当
,因
,所以
,所以
,当
时,Momentum更新速度是SGD的10倍

Nesterov(NAG)

Nesterov动量是Momentum的变种,即在计算参数梯度之前,前瞻一步,超前一个动量单位处:

,Nesterov动量可以理解为往Momentum动量中加入了一个校正因子。参数更新公式为:

Momentum动量与Nesterov动量的对比如下图所示,其中

代表A节点 ( theta_t )的梯度,
代表B节点(
的梯度),灰色实线代表 t-1 时刻的速度
.

f11f48fe0581527f6cefcdfe659be240.png
注意:图中的
以及
应该为
因为梯度方向是增长速度最快的方向,而图中所示为梯度的反方向,所以应该为
.

Nesterov动量相对于Momentum多了一个本次梯度相对上次梯度的变化量,这个变化量本质上是对目标函数二阶导的近似,由于令了二阶导的信息,Nesterov动量算法才会比Momentum具有更快的收敛速度。

AdaGrad

AdaGrad其实是对学习率进行了约束,AdaGrad独立地适应所有模型参数的学习率,缩放每个参数反比于其它所有梯度历史平方值总和的平方根。损失较大偏导的参数相应地拥有一个快速下降的学习率,而较小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。参数更新公式为:

其中,

是个很小的数,用来保证分母非0。对
从1到
进行一个递推形成一个约束项regularizer——

优点:

前期

较小的时候,
较大,梯度更新较大,可以解决SGD中学习率一直不变的问题;后期
较大的时候,
较小,能够约束梯度.适合处理稀疏梯度.

缺点:

由公式可以看出,AdaGrad依赖于人工设置一个全局学习率

,当
设置过大时,使regularizer过于敏感,对梯度的调节太大。在中后期,分母上梯度平方的累加将会越来越大,gradient→0,网络的更新能力会越来越弱,学习率会变的极小,使得训练提前结束。为了解决这样的问题,又提出了Adadelta算法。

Adadelta

Adadelta是对AdaGrad的扩展,AgaGrad会累加所有历史梯度的平方,而Adadelta只累加固定大小的项,并且也不直接存储这些项,仅仅是近似计算对应的平均值。参数更新方式为:

但是,此时Adadelta其实仍然依赖于全局学习率,因此,又做了一些处理,新的参数更新方式为:

新的参数更新方式,不依赖于全局学习率,并且,训练初中期,加速效果不错,很快;训练后期,反复在局部最小值附近抖动。

RMSprop

RMSprop可以算作Adadelta的一个特例:当

时,
就变为了求梯度平方和的平均数。

如果再求根的话,就变成了RMS(均方根):

。RMSprop的参数更新方式为:

特点:(1)RMSprop依然依赖于全局学习率;(2)RMSprop算是Adagrad的一种发展,和Adadelta的变体,效果趋于二者之间;(3)适合处理非平稳目标 - 对于RNN效果很好

Adam

Adam优化器结合了AdaGrad与RMSProp两种算法的优点。对梯度的一阶距估计

(即梯度的均值)和二阶距估计
(即梯度的未中心化的方差)进行综合考虑,计算出更新步长。更新方式为:

注:所有的
均表示
时刻。
分别是梯度的一阶距估计和二阶距估计,可以看做是对期望
的估计;
是对
的校正,这样可以近似为对期望的无偏估计。

优点:

1. 实现简单,计算高效,对内存需求少

2. 参数的更新不受梯度的伸缩变换影响

3. 超参数具有很好的解释性,且通常无需调整或仅需很少的微调

4. 更新的步长能够被限制在大致的范围内(初始学习率)

5. 能自然地实现步长退火过程(自动调整学习率)

6. 很适合应用于大规模的数据及参数的场景

7. 适用于不稳定目标函数

8. 适用于梯度稀疏或梯度存在很大噪声的问题

参考资料:
1. G-kdom:使用动量(Momentum)的SGD、使用Nesterov动量的SGD
2. 郑思座:谈谈优化算法(动量法、Nesterov法、自然梯度法)
3. https://blog.csdn.net/u012759136/article/details/52302426
http://www.lbrq.cn/news/2573083.html

相关文章:

  • 超级好看的html代码网页seoul是什么品牌
  • 虎门英文网站建设上海网络推广渠道
  • 同一个域名可以做几个网站吗windows优化大师怎么彻底删除
  • wordpress怎么开发文档长沙seo外包服务
  • 万创网做的网站怎么样找关键词的方法与技巧
  • vs2017建设网站谷歌优化排名公司
  • 获取iis中网站日志文件保存路径南安网站建设
  • 濮阳做网站设计口碑营销公司
  • 设计素材网站版权中国国家培训网官网
  • 收录网站源码建站之星官方网站
  • wordpress数据库丢失seo的方式包括
  • 南宁网站建设费用百度收录查询
  • 做做网站免费注册
  • 网站怎么做悬浮图片中国新冠疫苗接种率
  • 广州做网站哪里有金花关键词工具
  • 邵阳网站建设百度贴吧网页版入口
  • 深圳微信商城网站设计价格百度小说搜索排行榜
  • 电脑制作网站用哪个软件常用的seo查询工具有哪些
  • 网站维护费一般多少钱搜收录网
  • 腾讯云wordpress 需要买系统盘吗seo是什么意思网络用语
  • 学做网站是什么专业怎么在百度上发广告
  • 做律师推广的网站有哪些seo快速排名点击
  • 莱芜话题济南在线seo技术培训教程视频
  • uzi视频网站谁做的制作免费个人网站
  • 北京市运动会网站建设seo技术外包 乐云践新专家
  • 番禺网站建设效果营销策划书格式及范文
  • 做网站的困难企业网站建设的步骤
  • 在微信中做网站东莞百度seo关键词优化
  • 有免费的微网站是什么网络营销有哪些模式
  • 网站制作的主要流程网站seo优化怎么做
  • 自动驾驶中的传感器技术18——Camera(9)
  • Unix 发展史概览
  • 零基础 “入坑” Java--- 十六、字符串String 异常
  • WAIC引爆AI,智元机器人收购上纬新材,Geek+上市,157起融资撑起热度|2025年7月人工智能投融资观察 · 极新月报
  • 深度学习-模型初始化与模型构造
  • npm报错:npm install 出现“npm WARN old lockfile”