当前位置: 首页 > news >正文

网站代运营收费/官网建设

网站代运营收费,官网建设,设计一个电子商务网站建设方案,中天建设集团有限公司山西分公司信息熵: 在信息论与概率统计中,熵是表示随机变量不确定性的度量。对于离散型随机变量集合X,其概率分布为则随机变量X的熵为熵越大,表示随机变量的不确定性就越大。 例如,当随机变量X的集合取值只有0和1时,其…

信息熵:

在信息论与概率统计中,熵是表示随机变量不确定性的度量。对于离散型随机变量集合X,其概率分布为


则随机变量X的熵为


熵越大,表示随机变量的不确定性就越大。

例如,当随机变量X的集合取值只有0和1时,其概率分布为


则,熵为


当H(p)的值为0时,说明变量完全没有不确定性,当p=0.5,也就是H(P)=1时(最大值),说明随机变量的不确定性最大。而在机器学习中,熵的值越大表示所含的信息量越多(特征选择算法也是利用该思想)。

而在特征选择计算方法中,熵的计算公式为


其中,D为数据集,|D|为样本集中样本的个数,|C_k|为类别C_k中的样本个数,K为数据集中类别的个数。上式表示的意思是对于数据集D熵等于该类别在数据集中所有取值的概率乘以log以2为底的概率之和。在特征选择方法中,K的取值则为2类,一种是包含特征词的类别,一种是不包含特征词的类别,则将类别分为了1和0。

条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望


当熵和条件熵中的概率由数据估计(特别是极大似然估计,表明该方法中的参数是估计出来的不是数据集中的具体数据)得到时,所对应的熵与条件熵分布称为经验熵和经验条件熵。

针对特征选择方法中,特征A对数据集D的条件熵H(D|A)为


在上式中,对于在特征词A下数据集D的条件熵是特征词A的所有不同取值的比例分别乘以该特征词子集合的信息熵之和。

信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。信息增益是度量某个特征词属于某个特定类别的信息量。特征词的信息增益值等于特征词的经验熵与特征在给定条件下的经验熵之差。给定特征词W与类别C,用IG表示W对于类别C的信息增益。公式如下



其中, IG(W,C)表示特征词W在类别C下的信息增益值。 H(C)表示类别C的信息熵。 H(C|W)表示特征词W在类别C中的条件熵。

互信息

     在信息论中为了更好的描述事物之间的联系,引入了互信息的概念。对于两个随机变量X和Y,他们之间在某种程度上也是相互联系的,即他们之间存在着一定的依赖关系,互信息反应了两个随机变量之间相互依存关系的强弱。

定义为:


在特征选择方法中,I(C;F)可以从全局上衡量特征词F和类别C之间的关系,具有较高区分能力的词都具有较高的互信息值。

卡方统计

卡方统计是特征选择方法中效果最好的算法之一。卡方统计是标准化的值,用来检验两个事件的独立性。在特征选择算法中,卡方统计度量词与类别的相关程度,一个类别中的词,如果卡方统计值为零,表明该词与该类别是独立不相关的,该词不包含该类别的信息。如果卡方统计值很大,说明该词包含很多该类别的信息。卡方统计的计算公式如式所示。

特征词与类别的关联表

频率

属于特征词w

不属于特征词w

属于类别c

A

C

不属于类别c

B

D

表示特征词t和类别c之间的卡方统计值。N为文本的数量,N=A+B+C+D。我们在做卡方统计计算时,都采用简化的卡方统计计算公式,公式如下所示,其中的变量如上表所示。


参考文献

https://wenku.baidu.com/view/12d8e161915f804d2b16c161.html

https://blog.csdn.net/xwd18280820053/article/details/70739368

https://www.jianshu.com/p/9bbe71750547

统计学习方法

一种改进的基于条件互信息的特征选择算法

http://www.lbrq.cn/news/1287019.html

相关文章:

  • wordpress 网页排版错误/抖音seo关键词优化怎么做
  • 网站技术培训/青岛网站建设公司
  • 网站建设遵循的原则/百度竞价最低点击一次多少钱
  • 网站session/网络公司seo教程
  • 优化一个网站需要多少钱/徐州seo外包
  • 著名网站织梦/搜索广告排名
  • 做网站跟网站设计的区别/爱站seo综合查询
  • 做企业网站要怎么设计方案/百度上怎么发布作品
  • 深圳做网站公司排名/seo搜索优化招聘
  • 网站开发设计技术/最近几天的重大新闻事件
  • 北京网站建设维护/高级搜索引擎
  • 佛山免费发布信息的网站/网络营销的种类有哪些
  • 天猫官方网站首页/软文网站有哪些
  • 网站源码php/网络营销管理
  • 网站降权分析/友情链接交换平台免费
  • 上海网站建设 网页做/北京网络营销公司哪家好
  • dw做的网站如何上传图片/新手怎么入行seo
  • 网站怎么做响应式/seo怎么读
  • 哪里有教用java做网站/seo岗位工资
  • 怎样自己做网站模板/搜一搜百度
  • 海口网红图书馆在哪里/济南网站推广优化
  • 网站建设诚信服务/成人本科报考官网
  • 网站区域名是什么/seo百家论坛
  • 科汛cms网站栏目限制ip/域名查询访问
  • 长沙 学校网站建设/搜索热词排名
  • 在五八同城做网站多少钱/营销推广内容
  • ipad wordpress/太原网站制作优化seo公司
  • 杭州 电子商务网站建设 网络服务/企业宣传方式有哪些
  • 网站宝搭建网站环境/外链代发免费
  • 日本真人做爰直播网站/seo资源网站 排名
  • pytorch学习笔记-自定义卷积
  • 机器学习(重学版)基础篇(概念与评估)
  • Qt 远程过程调用(RPC)实现方案
  • java面试题(二)
  • TwinCAT3编程入门1
  • C++中使用Essentia实现STFT/ISTFT