当前位置: 首页 > news >正文

建设网站网站企业/建立自己的网站平台

建设网站网站企业,建立自己的网站平台,网站的特征,珠海动态网站制作推广上一节主要讲了Monte-Carlo learning,TD learning。这两个方法都是在给定策略下来估计价值函数V(s)。 但是我们的目标是想得到最优策略。 基于模型的策略优化过程分为策略评估和策略改进。从一个策略 π 和 v(s) 函数开始,先利用当前策略 π估算v值&…

上一节主要讲了Monte-Carlo learning,TD learning。这两个方法都是在给定策略下来估计价值函数V(s)。
但是我们的目标是想得到最优策略

基于模型的策略优化过程分为策略评估和策略改进。从一个策略 π 和 v(s) 函数开始,先利用当前策略 π估算v值,然后通过v值来更新策略 π。交替迭代,最后会收敛到最优策略和最优价值函数。

那么对于模型未知的情况,是否还能使用呢?答案是不能。

模型未知的情况下无法知道当前状态的所有可能的后续状态,进而无法确定在当前状态下应该采取哪个动作是最好的。解决这个问题是利用Q(s,a)来代替V(s)。这样即使不知道当前状态的所有后续状态,我们也可以根据已有的动作来选择
这样策略评估与策略改进就变成:从一个策略 π 和初始的 Q(s,a) 开始,先利用当前策略 π 估算q值,然后通过q值来更新策略 π。交替迭代,最后会收敛到最优策略和最优价值动作函数。


不过利用Q(s,a)来代替V(s)有一个问题是,因为不知道当前状态能够执行的所有动作,所以只选择当前最好的动作可能会陷入局部最优。 所以需要偶尔去尝试新的动作,这就是探索(exploration)。


Sarsa、Q-Learning

蒙特卡罗学习需要完整的episode才能更新,而TD learning可以做到单步更新。Q-learning和sarsa都是基于TDL来更新当前行为值函数的。
唯一不同的是在Q-learning中,行动策略(产生数据的策略)和要评估的策略不是一个策略,因此称之为异策略(off-policy)。而在sarsa中,正好相反,也就是行动策略(产生数据的策略)和要评估的策略是一个策略,称之为同策略(on-policy)

Sarsa(on-policy)

处于状态 s’ 时,利用 e-greedy 选择了用于更新Q值的a’,而且在下一轮循环也采取了该动作 a’。
即:用于计算的动作a’,就是下一步采取的动作
在这里插入图片描述

Q-Learning(off-policy)

处于状态 s’ 时,计算了在 s’ 时要采取哪个 a’ 可以得到最大的 Q 值,但在下一轮循环时并没有采取这个用于计算的动作 a’,而是重新根据 e-greedy 选的 a。
即:用于计算的动作a’,并不是下一步采取的动作
在这里插入图片描述
off-policy方法行为策略和估计策略是分离的,行为策略是用来做决策的,也就是选择下一步动作的,而估计策略是确定的,例如贪心策略,用来更新值函数的。这种分离的优点是估计策略是确定的,同时行为策略能够持续抽样所有可能的动作。




参考:
强化学习(五):Sarsa算法与Q-Learning算法
时间差分方法Q-learning和sarsa的区别



http://www.lbrq.cn/news/1238977.html

相关文章:

  • 如何选择一个好的网站建设公司/百度一下移动版首页
  • 高端网站建设教程/百度后台推广登录
  • 用dw建设个人网站视频/厦门seo关键词优化培训
  • 建设外贸网站案例/google seo 优化教程
  • 网站尾部设计/企业网站建设步骤
  • 北京做手机网站的公司/南宁网站seo大概多少钱
  • 2一3万元小型加工设备/金华seo
  • 帮人做彩票网站/自己建网站要花多少钱
  • 做男鞋的网站/厦门seo公司到1火星
  • 一个人免费视频在线观看动漫/北京seo招聘网
  • 开发公司委合同/seo排名哪家正规
  • 南昌网站建设公司/中国工商业联合会
  • 想建一个免费的网站/浙江专业网站seo
  • 做设计都有什么网站/青海seo技术培训
  • 招聘网站如何做SEO/营销排名seo
  • 沧州河间疫情最新消息今天/站长工具seo优化建议
  • 简单的网站怎么做/注册城乡规划师报考条件
  • 什么网站上可以做国际贸易/西安seo优化工作室
  • 番禺做网站服务/百度引流推广哪家好
  • 网站开发用什么软件/小程序定制
  • 新闻网站域名/百度网盘会员
  • 利用vs做网站/seo课
  • 网站模板和定制的区别/seo 公司
  • 上海弄网站的/网络营销的整体概念
  • 阜阳做网站的公司/泰州seo排名扣费
  • 日常网站维护/推广关键词怎么设置
  • 建和做网站/杭州seo公司服务
  • 欧美浅蓝色新闻网站css模板/推广论坛有哪些
  • 南京网站建设王道下拉??/外贸网站推广怎么做
  • 徐州市中宇建设工程有限公司网站/万能优化大师下载
  • Digit Queries
  • 著作权登记遇难题:创作者如何突破确权困境?
  • Hertzbeat如何配置redis?保存在redis的数据是可读数据
  • 【LeetCode刷题指南】--二叉树的后序遍历,二叉树遍历
  • 关于鸦片战争的历史
  • OAuth 2.0 的安全升级版授权协议 OAuth 2.1 详解