当前位置: 首页 > news >正文

做项目接任务的网站/网络营销怎么做推广

做项目接任务的网站,网络营销怎么做推广,珠海网站建设兼职,做自媒体好还是网站好这是xgboost原论文的伪代码介绍,可以看到实际上就是对缺失值的处理,现在没有缺失的值上分裂,然后把缺失值分别带入左节点算一下分裂后的增益,再带入右节点算一下分裂后的增益然后去其中大的一个作为最终的分裂方案。如果训练中没有…

f52d7d620e477d24f732d2c857d8c253.png

这是xgboost原论文的伪代码介绍,可以看到实际上就是对缺失值的处理,现在没有缺失的值上分裂,然后把缺失值分别带入左节点算一下分裂后的增益,再带入右节点算一下分裂后的增益然后去其中大的一个作为最终的分裂方案。如果训练中没有数据缺失,预测时出现了数据缺失,则默认被分类到右节点,原作者在这里是把缺失值描述为稀疏矩阵引起了歧义,实际上很我们常规意义上理解的那种onehot之后一大堆0的情况不一样,lightgbm的efb特征捆绑才是真正对这种0很多的特征进行合并从而实现稀疏特征的优化。


这里做个实验:

import 

573380541d07b94541fc78d2be0f2a5c.png

可以看到,0是当作一个正常的值来对待的而不是当作缺失值对待的。

如果我们要处理非常稀疏的特征,比如一列特征有90%的值都是0,并且这些0值的含义值都是缺失值,那么我们可以直接将0替换为np.nan,或者将xgb中的参数missing设置为0(如果设置为0则xgboost就无法处理np.nan的缺失值了,运行的时候如果原特征中存在np.nan会报错)。


XGBoost, missing values, and sparsity​arfer.net
30c11eb29c08979eedb377036b97babe.png

不过这篇文章给出了一个新的发现很有意思。如果我们把原始数据按照稀疏矩阵的方式进行压缩存储。

from scipy.sparse import csr_matrix
d=pd.DataFrame()
d['feature']=[0,1,2,np.nan]
y=pd.DataFrame([0,1,2,3])
d=csr_matrix(d)
clf.fit(d,y)
xgb.plot_tree(clf)

dda3cd8059018fc85502a5b063f456d1.png

这样就只得到一个单节点了。为了比较又做了一组实验

d=pd.DataFrame()
d['feature']=[1,1,2,np.nan]
y=pd.DataFrame([1,1,2,3])
clf.fit(d,y)
xgb.plot_tree(clf)

d1fbfec86a08176503a1d72a38c11406.png
d=pd.DataFrame()
d['feature']=[1,1,2,np.nan]
y=pd.DataFrame([1,1,2,3])
d=csr_matrix(d)
clf.fit(d,y)
xgb.plot_tree(clf)

7a1bca3bd5626ce19fca4482ba6fea73.png

可以看到如果原始特征中没有0,进行矩阵压缩之后结果是一样的,如果原始特征中存在0,则矩阵压缩之后结果不一样,

所以,xgboost对于稀疏矩阵压缩之后的处理就是把0和np.nan都统一当作了缺失值。我想所谓的优化就是在这里。显然这是一个很不好的设置,因为如果原始特征中的0是有意义的,那么这样处理显然破坏了原始特征,所以上面链接里的作者提到建议用稠密矩阵而不是压缩之后的矩阵进行训练。不过其实问题不大,我们只需要对有意义的0值赋一个0.0000000000001的值就可以解决这个问题了,而且矩阵压缩之后内存占用非常小,训练要比原来快很多。

http://www.lbrq.cn/news/1365751.html

相关文章:

  • 正能量视频免费网站免下载/网络营销工具分析
  • 微信公众号里怎么做网站/宁波网站推广公司报价
  • 速递物流系网站建设与维护/seo的范畴是什么
  • 网站开发工作分解结构/seo网站优化优化排名
  • 杭州优化公司多少钱/班级优化大师下载
  • 最新的网站建设软件有哪些/seo优化培训多少钱
  • 桂林漓江自由行攻略/windows优化大师官方下载
  • 做商务网站需要什么资料/搜狗网
  • 视频网站程序/海外发布新闻
  • 国际外贸网站/b站黄页推广
  • 怎么用国外的服务器做网站/最好用的磁力搜索器
  • 网站可以做动态背景吗/湖南中高风险地区
  • 响应式网站建设平台/最新注册域名查询
  • 怎么样做微网站/代写文章哪里找写手
  • 网页设计学校网站制作/网络营销ppt
  • WordPress招标采购/seo顾问服务咨询
  • 网站设计兼容模式/做优化的网站
  • 网站建设与网页设计是什么/seo的理解
  • 西安网站托管商家/域名交易中心
  • 网页做的很美的网站/搜索引擎网站推广如何优化
  • 做网站建设公司怎么样/谷歌网站优化
  • 免费招工人在哪个网站/seo优化员
  • 宁波网站建设运营/域名注册网站系统
  • 游戏攻略网站开发/优化关键词哪家好
  • 哪些网站做兼职可靠吗/seo优
  • 订制型网站费用/推广运营
  • 哪些网站不能备案/seo搜索工具栏
  • 北京网站开发要多少钱/潍坊seo按天收费
  • 珠海做网站制作/it培训机构学费一般多少
  • 贵阳做网站kuhugz/线上营销渠道有哪些
  • 深度学习图像处理篇之AlexNet模型详解
  • 飞算科技:用自主创新技术,为行业数字化转型按下 “加速键”
  • 在Ansys Mechanical中对磨损进行建模
  • PPT写作五个境界--仅供学习交流使用
  • 基于MBA与BP神经网络分类模型的特征选择方法研究(Python实现)
  • 关于鸦片战争的历史