当前位置: 首页 > news >正文

凡科做的是网站吗/上海已经开始二次感染了

凡科做的是网站吗,上海已经开始二次感染了,滁州市城乡住房建设官网,机械网站 英文梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度(一阶导数)相反方向−∇θJ(θ)来不断更新模型参数来到达目标函数的极小值点(收敛),更新步长为η。有三种梯度下降算法框架,它们不同之处在于每次学习&…

  梯度下降算法是通过沿着目标函数J(θ)参数θ∈R的梯度(一阶导数)相反方向−∇θJ(θ)来不断更新模型参数来到达目标函数的极小值点(收敛),更新步长为η。有三种梯度下降算法框架,它们不同之处在于每次学习(更新模型参数)使用的样本个数,每次更新使用不同的样本会导致每次学习的准确性和学习时间不同。

  • 批量梯度下降(Batch gradient descent)

每次使用全量的训练集样本来更新模型参数,即: θ=θ−η⋅∇θJ(θ)

其代码如下:

epochs 是用户输入的最大迭代次数。通过上诉代码可以看出,每次使用全部训练集样本计算损失函数 loss_function 的梯度 params_grad,然后使用学习速率 learning_rate 朝着梯度相反方向去更新模型的每个参数params。一般各现有的一些机器学习库都提供了梯度计算api。如果想自己亲手写代码计算,那么需要在程序调试过程中验证梯度计算是否正确。

批量梯度下降每次学习都使用整个训练集,因此其优点在于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点),但是其缺点在于每次学习时间过长,并且如果训练集很大以至于需要消耗大量的内存,并且全量梯度下降不能进行在线模型参数更新。

  • 随机梯度下降(Stochastic gradient descent)

随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,即: θ=θ−η⋅∇θJ(θ;xi;yi)

批量梯度下降算法每次都会使用全部训练样本,因此这些计算是冗余的,因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的,并且可以进行在线更新。

其代码如下:

随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行,因此可以带来优化波动(扰动),如下图:

图1 SGD扰动

不过从另一个方面来看,随机梯度下降所带来的波动有个好处就是,对于类似盆地区域(即很多局部极小值点)那么这个波动的特点可能会使得优化的方向从当前的局部极小值点跳到另一个更好的局部极小值点,这样便可能对于非凸函数,最终收敛于一个较好的局部极值点,甚至全局极值点。

由于波动,因此会使得迭代次数(学习次数)增多,即收敛速度变慢。不过最终其会和全量梯度下降算法一样,具有相同的收敛性,即凸函数收敛于全局极值点,非凸损失函数收敛于局部极值点。

  • 小批量梯度下降(Mini-batch gradient descent)

Mini-batch 梯度下降综合了 batch 梯度下降与 stochastic 梯度下降,在每次更新速度与更新次数中间取得一个平衡,其每次更新从训练集中随机选择 m,m<n 个样本进行学习,即:

θ=θ−η⋅∇θJ(θ;xi:i+m;yi:i+m)

其代码如下:

相对于随机梯度下降,Mini-batch梯度下降降低了收敛波动性,即降低了参数更新的方差,使得更新更加稳定。相对于全量梯度下降,其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每次更新随机选择[50,256]个样本进行学习,但是也要根据具体问题而选择,实践中可以进行多次试验,选择一个更新速度与更次次数都较适合的样本数。mini-batch梯度下降可以保证收敛性,常用于神经网络中。

 

转载于:https://www.cnblogs.com/missidiot/p/9377614.html

http://www.lbrq.cn/news/1106677.html

相关文章:

  • 国家超算互联网公司排名/关键词优化需要从哪些方面开展?
  • 如何做网站搭桥链接/网络广告策划的步骤
  • 橙色企业网站/seo智能优化系统
  • wordpress插件去除google/seo为什么要进行外部优化
  • 现在还有什么网站/百度一下首页百度
  • wordpress如何定义锚/seo博客网站
  • 东莞网站建设那家好/seo搜索引擎优化师
  • 东莞网站建设-拥有多年专业/百度一下首页下载安装桌面
  • 全面的哈尔滨网站建设/seo优化培训班
  • dw做网站设计/sem竞价课程
  • 都有什么类别的网站/抖音网络营销案例分析
  • 旅游网站网页设计图片/网站策划是做什么的
  • 东莞微信网站建设/西安市网站
  • 大连网站开发企业/哈尔滨seo关键词
  • 重庆交通网站建设/搜索引擎营销推广
  • 怎么做网站卖东西/故事式软文范例500字
  • 陕西做网站公司/什么关键词能搜到资源
  • 做网站一个月能挣多少钱/免费个人自助建站
  • 做移动网站快速排名/淄博seo培训
  • 平台开发者/北京seo平台
  • 网站的反链怎么做/雅虎日本新闻
  • asp动态网站开发/营销课程培训
  • 做除尘环保的如何推广自己的网站/游戏广告投放平台
  • 到国外网站上做兼职翻译/手机优化大师
  • 长沙优化网站/优化关键词排名优化公司
  • 网站主页 优帮云/经典软文范例大全
  • 网站建站价格/站长工具精品
  • 上海建设工程质监站网站/网上营销推广
  • 网站站内内链建设/网络营销方案策划书
  • 建筑网cbi/优就业seo怎么样
  • 学习C++、QT---29(QT库中QT事件的介绍和用了几个案例来对事件怎么使用的讲解)
  • 【设计模式C#】外观模式(用于解决客户端对系统的许多类进行频繁沟通)
  • 从零开始学Tailwind CSS : 颜色配置原理与实践
  • 一个基于阿里云的C端Java服务的整体项目架构
  • SPARKLE:深度剖析强化学习如何提升语言模型推理能力
  • 一文了解CDA