当前位置: 首页 > news >正文

网站链接的基本形式网络推广人员

网站链接的基本形式,网络推广人员,茂名网站制作,网站建设哪家点击上方“AI派”,选择“设为星标”最新分享,第一时间送达!本文是《机器学习宝典》第 19 篇,读完本文你能够掌握集成学习中的 GBDT。前一篇介绍了 Boosting 中经典的一个算法:AdaBoost,这篇介绍 Boosting 中…
点击上方“AI派”,选择“设为星标
最新分享,第一时间送达!
640?wx_fmt=gif

本文是《机器学习宝典》第 19 篇,读完本文你能够掌握集成学习中的 GBDT。

前一篇介绍了 Boosting 中经典的一个算法:AdaBoost,这篇介绍 Boosting 中另一个经典的算法:GBDT(gradient boosting descision tree),也称为 GBM (gradient boosting machine) 或 MART (multiple additive regression tree),GBDT 虽然也是属于 Boosting 算法,但是和 AdaBoost 算法差别较大,AdaBoost 是通过前一轮基模型的误差率来更新训练样本权重,这样不断重视那些分错的样本来不断迭代,GBDT 首先限定基模型只能是 CART 回归树(不是分类树),其次是采用的是梯度提升的思想来不断迭代,梯度提升我们稍后会介绍。

GBDT 简介

在正式介绍 GBDT 之前,我们先来举一个简单的例子。假设一个人的年龄为30岁,我们要使用模型来预测。第一次我们的拟合目标为 30,假设预测值为 20,两者相差了 10;第二次我们的拟合目标不再是30,而是对应的残差 10,假设这次预测值为 8,这次残差为 2;如果继续预测,那下一次的拟合目标就是 2 了,这样,每次拟合目标都是上一次的残差。

GBDT 其实就是参考前面的思想,我们假设前一轮迭代得到的集成模型为 640?wx_fmt=png,损失函数是 640?wx_fmt=png,我们本轮迭代要做的就是找到一个拟合目标,训练一个基模型 640?wx_fmt=png,得到本轮的集成模型 640?wx_fmt=png, 使得本轮的损失函数 640?wx_fmt=png 最小。

可以看到,只要在每一轮找到一个能够让本轮损失函数最小的拟合的目标,问题是什么样的拟合目标才能够使得损失函数降低呢?前面的示例我们每轮的拟合目标是真实值与前一轮集成模型的残差,实际上,如果拟合目标是残差的话,是有局限性的,为什么这么说呢?因为如果损失函数为平方损失函数时,拟合目标为残差确实能够降低损失函数,但是如果损失函数为其他时,拟合目标为残差就不合适了。

为了可以扩展到更复杂的损失函数,所以提出了使用上一轮的损失函数的负梯度来作为当前轮的拟合目标

为什么可以使用负梯度

前面说了,如果将每一轮的拟合目标设为损失函数的负梯度就能够使得损失函数降低,但是并没有说明原因,这里来给出一个证明。由于证明过程中需要涉及到泰勒公式,所以先简单介绍下泰勒公式。

泰勒公式是一个用函数在某点的信息描述其附近取值的公式,它的基本形式如下:
640?wx_fmt=png
经常要用到一阶泰勒展开式如下:
640?wx_fmt=png
考虑到在GBDT中第 t 轮的集成模型 640?wx_fmt=png 可以表示为:
640?wx_fmt=png
将第 t 轮的损失函数 640?wx_fmt=png640?wx_fmt=png 处进行一阶泰勒展开:

640?wx_fmt=png

想要使得 640?wx_fmt=png ,可以使得:
640?wx_fmt=png
这时:
640?wx_fmt=png
由于 640?wx_fmt=png,所以可以使得 640?wx_fmt=png

在上面的过程中,我们假设 640?wx_fmt=png,也就是说,如果第 t 轮的基模型 640?wx_fmt=png 的拟合目标是第 t-1 轮损失函数的负梯度的话,就能够使得第 t 轮的损失函数最小。当损失函数为平方损失函数是,负梯度也就变为了残差。

另外补充一点,不知道你发现没有,在通过优化目标函数求解GBDT的过程是不是和梯度下降这个优化算法很是相像,实际上可以认为GBDT的求解过程可以认为是在函数空间的梯度下降,也就是将带求解的模型函数作为梯度下降中要求解的参数

GBDT 算法流程

假设我们的训练集为 640?wx_fmt=png,总共迭代次数为T次(基模型的个数为 T),那么整个算法的流程可以表示如下:

1.初始化模型640?wx_fmt=png

2.令t = 1,2,…T,循环:

a. 对于每个样本 640?wx_fmt=png,计算 t-1 轮的损失函数的负梯度:640?wx_fmt=png,并将其作为第 t 轮中样本的标签640?wx_fmt=png

b. 根据更新后的 640?wx_fmt=png 训练出第 t 轮的基模型(CART回归树)640?wx_fmt=png

c. 生成第 t 轮的集成模型640?wx_fmt=png

GBDT 正则化

GBDT正则化常见的有三种方式,第一种正则化方式类似于 AdaBoost 中的学习率,我们可以定义为 640?wx_fmt=png,加上了学习率之后,则
640?wx_fmt=png
640?wx_fmt=png 的取值范围为 640?wx_fmt=png。对于同样的训练集学习效果,较小的 640?wx_fmt=png 意味着我们需要更多的迭代次数。通常我们用学习率和迭代最大次数一起来决定算法的拟合效果。

第二种正则化的方式是控制子采样(subsample)的比例,也就是说只是用一部分样本训练,但是如果采样比例过小的话,在降低方差的同时也会提高偏差,因此不能过低。

第三种正则化的方式就是控制每个决策树(基模型)的复杂度,也就是对决策树进行一些剪枝操作。

参考:

  1. GBDT&XGBOOST(一)

    (http://frankblog.site/2018/06/12/GBDT&XGBOOST%EF%BC%88%E4%B8%80%EF%BC%89/)

  2. GBM Paper Reading

    (http://xtf615.com/paper/GBM.html)

  3. GBDT理论知识总结

    (https://www.cnblogs.com/bentuwuying/p/6667267.html)

  4. 梯度提升树(GBDT)原理小

       (https://www.cnblogs.com/pinard/p/6140514.html)

    5. gbdt的残差为什么用负梯度代替

       (https://www.zhihu.com/question/63560633)


??扫码查看《机器学习宝典》历史内容

640?wx_fmt=png


640

640?wx_fmt=png


长按,识别二维码,加关注


http://www.lbrq.cn/news/2623681.html

相关文章:

  • 山东网站app制作曹操论坛seo
  • 荆门哪里有专门做企业网站的关键词查询
  • 网站制作报价网站源码
  • 天猫网站做的比京东好搜狗快速收录方法
  • 电商网站建设 网站定制开发代理公司注册
  • 网上注册公司需要多少钱搜索引擎优化方法有哪些
  • 自己如何做团购网站百度24小时人工客服电话
  • 临海大经建设集团网站搜易网提供的技术服务
  • 现在 做网站 技术路线网站制作的流程
  • 帮做网站今日头条新闻10条
  • 网站建设案例 优帮云免费建设网站平台
  • 做网站需要哪些流程最大的中文搜索引擎
  • 德州网站建设维护看广告赚钱一天50元
  • 凡科做的网站真是免费吗搜索引擎排行榜前十名
  • 河南微网站建设公司哪家好站长统计app
  • seo 网站换程序优秀软文范例800字
  • 网站怎么做vga头百度投放广告收费标准
  • 中山有做网站的公司吗seo教程技术优化搜索引擎
  • 用网页制作个人网站软文拟发布的平台与板块
  • 查询公司蔡甸seo排名公司
  • kol营销重庆seo排名方法
  • 网站建设从入门到精通 网盘福州seo网络推广
  • 营销型网站可以吗0元入驻的电商平台
  • 武汉网站优化方案经典软文文案
  • 创建网站大约多少钱2018新东方一对一辅导价格
  • wordpress首页怎么打开很慢如何优化网络速度
  • 德州做网站优化如何找友情链接
  • 网站企业模板微信引流推广怎么做
  • 3g网站跳转google关键词
  • 麦田 网站建设推广自己的网站
  • npm 与 npx 区别详解。以及mcp中npx加载原理。
  • ubuntu 2024 安装拼音输入法
  • LabVIEW注册表操作
  • UE5多人MOBA+GAS 39、制作角色上半身UI
  • MySQL UNION 操作符详细说明
  • 海康威视相机,MVS连接成功,但无图像怎么办?