当前位置: 首页 > news >正文

电子商务网站的分类/站长聚集地

电子商务网站的分类,站长聚集地,WordPress是前端还是后端,快站网如何开始建站感觉多臂赌博机方面的中文文献很少,偶尔碰到,记录一下,方便其它人学习。感谢原作者:http://mlyixi.byethost32.com/blog/?cat35 这一节我们来了解下多臂赌博机问题的提出和理论基础,最后讨论下UCB系列策略.当然,这里的多臂赌博机…


感觉多臂赌博机方面的中文文献很少,偶尔碰到,记录一下,方便其它人学习。感谢原作者:http://mlyixi.byethost32.com/blog/?cat=35


这一节我们来了解下多臂赌博机问题的提出和理论基础,最后讨论下UCB系列策略.当然,这里的多臂赌博机问题是随机式的. 随机式多臂赌博机的问题描述就不在这里重复了,可以参考上一节

理论

问题的证明

Lai & Robbins在1985年论证了对于某些特定的分布(只有一个实参的分布),存在有策略使得它的累积遗憾的期望服从lognlog⁡n增长.同时也证明了对于任何策略任何次优臂,总有

E[Tj(n)](lnn)/D(pj||p)E[Tj(n)]≥(ln⁡n)/D(pj||p∗)

, 即累积遗憾的期望存在有一个下界.

当然他们也提出了一些针对特定分布的策略,虽然结果较好(对数增长的常数项较小),但是由于计算复杂度和特定分布的限制,并不具有较好的实用性.

改进

为了克服上面的缺点, Agrawal提出了基于采样平均值作为上部信心指数(upper confidence index)的多臂赌博机策略,它将各臂采样平均值的某些函数作为该臂优越性的指标,然后总选取最优越的臂. 同时证明结果显示它们同样服从对数增长,只不过对数增长的常数项较大了些.

UCB策略

UCB1

该策略已经在上一节讨论过了,这里只列举下算法.

UCB1算法:
在前KK轮,每臂各选择一次,
t=K,K+1...t=K,K+1...轮:

  1. 选择指数IiIi最大的臂,其中Ii=x¯i+2logtniIi=x¯i+2log⁡tni,其中x¯ix¯i是均值,nini是臂ii当前累积被选择的次数
  2. 记录获得的奖励,并更新x¯ix¯inini

UCB2

UCB2算法
在前KK轮,每臂各选择一次,并置ri=0ri=0

  1. 选出指数IiIi最大的臂,其中Ii=x¯<em>i+a</em>n,riIi=x¯<em>i+a</em>n,ri,其中

    an,ri=(1+α)ln(en/τ(r))2τ(r)an,ri=(1+α)ln⁡(en/τ(r))2τ(r)

    , 其中τ(r)=(1+α)rτ(r)=⌈(1+α)r⌉
  2. 选择该臂τ(ri+1)τ(ri)τ(ri+1)−τ(ri)
  3. ri++ri++

定理: 如果nmax12Δ2in≥max12Δi2,则总的遗憾期望不超过

i:μi<μ((1+α)(1+4α)ln(2eΔ2in)2Δi+cαΔi)∑i:μi<μ∗((1+α)(1+4α)ln⁡(2eΔi2n)2Δi+cαΔi)

e-Greedy策略

在多臂赌博机问题中贪婪算法并不适用,但是,可以改良一下,如Sutton &Barto在1998年提出的ϵgreedyϵ−greedy算法,它简单地以1ϵ1−ϵ的概率选择最大的采样均值的臂,而以ϵϵ的概率去随机选择臂. 但是,它并不是对数增长的. 它需要人为地设定一个停止规则,而且,这个停止规则必然和各臂期望有关.

一个好的改良叫做ϵngreedyϵn−greedy算法.

定义参数c>0c>0d:0<dminΔid:0<d≤minΔiϵn=min(1,cKd2n)ϵn=min(1,cKd2n)

ϵngreedyϵn−greedy算法
在前KK轮,每臂各选择一次,

  1. 1ϵn1−ϵn的概率选择最大的采样均值的臂,而以ϵnϵn的概率去随机选择臂.
  2. 更新ϵnϵn

虽然该方法在仿真中能得到很好的结果,但实际情况是各臂期望不可知,无法确定较好的dd,所以只能设置一个较大的cc(其实c,d可以合并成同一参数).

一般来说,如果dd满足条件,c>5c>5足够保证对数增长.

UCB1-NORMAL

UCB1-NORMAL算法
1. 如果有臂被选择的次数少于8logn⌈8log⁡n⌉,那么就选择该臂
2. 否则,选择指数IiIi最大的臂,其中Ii=x¯i+16(qinix¯2i)ln(n1)(ni1)(ni)Ii=x¯i+16(qi−nix¯i2)ln⁡(n−1)(ni−1)(ni), 其中qi=x2iqi=∑xi2
3. 更新x¯ix¯iqiqi

定理
UCB1-NORMAL算法下总的遗憾期望不超过

256logn(i:μi<μσ2iΔi)+(1+π22+8lnn)(i=1KΔi)256log⁡n(∑i:μi<μ∗σi2Δi)+(1+π22+8ln⁡n)(∑i=1KΔi)

好了,这样就列举完了UCB基本算法了.当然,还有很多变种,留待以后补充. 但其实,各UCB算法的差异并不足够大.





http://www.lbrq.cn/news/825139.html

相关文章:

  • 西安网站制作维护/网络培训心得体会5篇
  • 合浦县建设局网站/怎么找平台推广自己的产品
  • 芜湖市建设办网站/站长联盟
  • 软件公司做网站/网络营销是指
  • 深圳做公司网站推广的/什么叫seo
  • 牌具网站广告怎么做/网络营销的未来发展趋势
  • 怎样制作自己的网站/宁波网站建设优化企业
  • 物联网软件定制开发/优化算法
  • 做网站要学c语言/网站内容seo
  • 哪里有做商城的网站/长沙网站seo排名
  • 全球网站制作/品牌推广战略
  • 微信 公众号 微网站开发/大二网页设计作业成品
  • 写web用什么开发工具/seo排名赚钱
  • 网站前后端分离怎么做/南宁网站seo外包
  • 网站建设总体设计/龙岗网站制作
  • 做3d地形比较好的网站/杭州seo技术培训
  • 河北省住房建设厅政务网站/网络广告营销有哪些
  • 苹果地图可以看街景吗/优化seo培训班
  • 西湖区高端网站建设/介绍网络营销的短文
  • 做产品网站建设/友链交易
  • 注册记账代理公司注册/seo知识分享
  • tklink的登录做网站/google官网入口
  • 西安网站建设设计的好公司排名/爱站网长尾词挖掘工具
  • 哪些网站是做采购的/市场调研方案怎么写
  • 做我的世界背景图的网站/磁力天堂
  • 常用的网站建设技术/站长网站提交
  • 商洛网站开发/国产最好的a级suv88814
  • 山东华建建设有限公司网站/收录
  • 自己网站做问卷调查/如何做友情链接
  • 网站建设擎宇/企业优化推广
  • 复制docker根目录遇到的权限问题
  • 【qml-3】qml与c++交互第二次尝试(类型方式)
  • STM32-第八节-TIM定时器-4(编码器接口)
  • docker Neo4j
  • 结合python面向对象编程,阐述面向对象三大特征
  • 【项目分享】动手做一个TypeC转TTL模块(附带原理图)