网站代运营收费/官网建设
信息熵:
在信息论与概率统计中,熵是表示随机变量不确定性的度量。对于离散型随机变量集合X,其概率分布为
则随机变量X的熵为
熵越大,表示随机变量的不确定性就越大。
例如,当随机变量X的集合取值只有0和1时,其概率分布为
则,熵为
当H(p)的值为0时,说明变量完全没有不确定性,当p=0.5,也就是H(P)=1时(最大值),说明随机变量的不确定性最大。而在机器学习中,熵的值越大表示所含的信息量越多(特征选择算法也是利用该思想)。
而在特征选择计算方法中,熵的计算公式为
其中,D为数据集,|D|为样本集中样本的个数,|C_k|为类别C_k中的样本个数,K为数据集中类别的个数。上式表示的意思是对于数据集D熵等于该类别在数据集中所有取值的概率乘以log以2为底的概率之和。在特征选择方法中,K的取值则为2类,一种是包含特征词的类别,一种是不包含特征词的类别,则将类别分为了1和0。
条件熵
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望
当熵和条件熵中的概率由数据估计(特别是极大似然估计,表明该方法中的参数是估计出来的不是数据集中的具体数据)得到时,所对应的熵与条件熵分布称为经验熵和经验条件熵。
针对特征选择方法中,特征A对数据集D的条件熵H(D|A)为
在上式中,对于在特征词A下数据集D的条件熵是特征词A的所有不同取值的比例分别乘以该特征词子集合的信息熵之和。
信息增益:
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。信息增益是度量某个特征词属于某个特定类别的信息量。特征词的信息增益值等于特征词的经验熵与特征在给定条件下的经验熵之差。给定特征词W与类别C,用IG表示W对于类别C的信息增益。公式如下
其中, IG(W,C)表示特征词W在类别C下的信息增益值。 H(C)表示类别C的信息熵。 H(C|W)表示特征词W在类别C中的条件熵。
互信息:
在信息论中为了更好的描述事物之间的联系,引入了互信息的概念。对于两个随机变量X和Y,他们之间在某种程度上也是相互联系的,即他们之间存在着一定的依赖关系,互信息反应了两个随机变量之间相互依存关系的强弱。
定义为:
在特征选择方法中,I(C;F)可以从全局上衡量特征词F和类别C之间的关系,具有较高区分能力的词都具有较高的互信息值。
卡方统计:
卡方统计是特征选择方法中效果最好的算法之一。卡方统计是标准化的值,用来检验两个事件的独立性。在特征选择算法中,卡方统计度量词与类别的相关程度,一个类别中的词,如果卡方统计值为零,表明该词与该类别是独立不相关的,该词不包含该类别的信息。如果卡方统计值很大,说明该词包含很多该类别的信息。卡方统计的计算公式如式所示。
特征词与类别的关联表
频率 | 属于特征词w | 不属于特征词w |
属于类别c | A | C |
不属于类别c | B | D |
表示特征词t和类别c之间的卡方统计值。N为文本的数量,N=A+B+C+D。我们在做卡方统计计算时,都采用简化的卡方统计计算公式,公式如下所示,其中的变量如上表所示。
参考文献
https://wenku.baidu.com/view/12d8e161915f804d2b16c161.html
https://blog.csdn.net/xwd18280820053/article/details/70739368
https://www.jianshu.com/p/9bbe71750547
统计学习方法
一种改进的基于条件互信息的特征选择算法