当前位置: 首页 > news >正文

哪个网站可以做全网推广/网络营销策划方案

哪个网站可以做全网推广,网络营销策划方案,手机oa办公系统下载,wordpress怎么做淘客网站决策树1. 基本流程2. 划分选择2.1信息增益2.2信息增益率2.3基尼指数3. 解决过拟合3.1剪枝3.2正则化4.多变量决策树5.决策树回归1. 基本流程 决策树是基于树结构的决策算法,包括一个根结点,若干个内部节点和叶子结点。叶子结点对应于决策结果&#xff0c…

决策树

  • 1. 基本流程
  • 2. 划分选择
    • 2.1信息增益
    • 2.2信息增益率
    • 2.3基尼指数
  • 3. 解决过拟合
    • 3.1剪枝
    • 3.2正则化
  • 4.多变量决策树
  • 5.决策树回归

1. 基本流程

决策树是基于树结构的决策算法,包括一个根结点,若干个内部节点和叶子结点。叶子结点对应于决策结果,其他每个节点对应于一个属性测试。如图所示:
在这里插入图片描述
决策树的生成是一个递归过程,在决策树基本算法中,有三种情形会导致递归返回:

(1)当前节点包含的样本全属于同一类别;

(2)当前属性集为空,或是所有样本在所有属性集上取值相同;

(3)当前节点包含的样本集合为空。

2. 划分选择

2.1信息增益

信息熵
“信息熵”是衡量样本集合纯度的一种指标。
假设当前集合D中第k类样本所占的比例为pk(k=1,2,....,n)p_{k}(k=1,2,....,n)pk(k=1,2,....,n),则信息熵定义为:
Ent(D)=−∑k=1npklog2pkEnt(D)=-\sum_{k=1}^{n}p_{k}log_{2}p_{k}Ent(D)=k=1npklog2pk

假设离散属性a有V个可能的取值,那么使用属性a进行划分,产生V个分支节点,第v个分支节点的样本记为DvD^{v}Dv,那么属性a对集合D划分所得的“信息增益”为:
Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\left| D^v \right|}{\left| D \right|}Ent(D^v)Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)

我们使用信息增益来进行节点划分,信息增益越大,使用该属性进行划分越好。(ID3)

2.2信息增益率

信息增益对可取值数目较多的属性有所偏好,信息增益率避免了这一点,信息增益率定义如下:

Gain_ratio(D,a)=Gain(D,a)IV(a)Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}Gain_ratio(D,a)=IV(a)Gain(D,a)

固有值函数IV(a)IV(a)IV(a)来计算属性a的固有值,使该函数满足:属性可取值数目越多,固有值越大:

IV(a)=−∑v=1V∣Dv∣∣D∣log2∣Dv∣∣D∣IV(a)=-\sum_{v=1}^V\frac{\left| D^v \right|}{\left| D \right|}log_2\frac{\left| D^v \right|}{\left| D \right|}IV(a)=v=1VDDvlog2DDv

注意:信息增益率对可取值数目较少的属性有所偏好,C4.5并不是直接选择信息增益率最大的属性,而是使用了一个启发式:先从候选划分属性中找到信息增益高于平均水平的属性,再选择增益率最高的。

2.3基尼指数

数据集D的纯度使用基尼值来度量:
Gini(D)=∑k=1n∑k′≠kpkpk′Gini(D)=\sum_{k=1}^n\sum_{k^{'}\neq k}p_kp_{k^{'}}Gini(D)=k=1nk=kpkpk
属性a的基尼指数定义为:
Gini_index(D,a)=∑v=1V∣Dv∣∣D∣Gini(Dv)Gini\_index(D,a)=\sum_{v=1}^V\frac{\left| D^v \right|}{\left| D \right|}Gini(D^v)Gini_index(D,a)=v=1VDDvGini(Dv)
基尼指数反映了从数据集D中随机抽取两个样本,其类别不一致的概率。

划分时,选择那个使得划分后基尼指数最小的那个属性,CART决策树使用基尼指数来划分属性。

3. 解决过拟合

3.1剪枝

预剪枝
预剪枝是指在决策树生成过程中,对每个节点在划分前进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分节点并将当前节点标记为叶节点。
缺点:欠拟合
后剪枝
先生成完整的决策树,自底向上,若将该节点对应的子树替换为叶子节点能带来决策树泛化性能提升,则将该子树替换为叶节点。
优点:欠拟合风险小
缺点:生成完全决策树,所有非叶子节点进行考察,训练时间开销大。

3.2正则化

L1,L2正则化也可以使用,详细后补

4.多变量决策树

决策树的决策边界一般是线性的,如果想要解决非线性问题可以使用多变量决策树,对复杂边界进行分段近似。即每个节点的划分不再是根据单一属性,而是根据某些属性的线性组合。

在多变量决策树的学习过程中,不是为每个非叶节点寻找一个最优划分属性,而是试图建立一个合适的线性分类器。

5.决策树回归

CART是一个典型的可用于回归的决策树。
当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;
该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用。

http://www.lbrq.cn/news/942319.html

相关文章:

  • 找别人做网站要注意什么软件/网址大全百度
  • 西安那些做网站的公司/免费宣传平台有哪些
  • 网站开发者模式怎么保存/百度官网
  • 贵州网站推广/搜索引擎分类
  • 教育行业网站建设审批/域名购买
  • 网站建设全程揭秘 课件下载/视频号关键词搜索排名
  • 北京专业做网站的公司/论坛seo招聘
  • 品牌网站建设有哪些/站长推广网
  • 稳定的网站建设/什么是搜索引擎优化seo
  • dw怎么做phpcms网站/域名权重
  • 电商网站成功的营销策略/互联网下的网络营销
  • 福州网站建设服务价格最实惠/搜索引擎营销的主要方法
  • 行业电子商务网站有哪些/app网络推广方案
  • 哪些网站可以做代理/优化网站链接的方法
  • 推广赚钱的软件有哪些/百度seo什么意思
  • 广州冼村改造/seo引流什么意思
  • 各个做网站的有什么区别/cilimao磁力猫最新版地址
  • 网易免费企业邮箱入口/seo运营做什么
  • 做微信平台网站需要多少钱/磁力天堂最佳搜索引擎入口
  • 宁夏建设厅网站官网/seo就业前景如何
  • 哪个网站做服装批发比较好/百度首页登录官网
  • 金融理财网站建设方案/每天三分钟新闻天下事
  • 黑客收徒网站建设/网站的营销策略
  • 网站logo图怎么做的/深圳seo秘籍
  • php开源网站/室内设计师培训班学费多少
  • 做高级电工题的网站/沈阳seo博客
  • xp系统中做网站服务器/培训机构好还是学校好
  • 松江网站建设品划网络/网络媒体发稿平台
  • 淄博网站客户/百度seo优化软件
  • 微信如何建网站/永久免费个人网站申请注册
  • Android ADB命令之内存统计与分析
  • 【C/C++】explicit_bzero
  • GitHub的免费账户的存储空间有多少?
  • 深度学习(鱼书)day03--神经网络(后两节)
  • FT和RAG如何选择
  • Kubernetes配置管理