当前位置: 首页 > news >正文

网站内容优化方法国内搜索引擎排名

网站内容优化方法,国内搜索引擎排名,江苏省华建建设股份有限网站,wordpress萨龙怎么使用我们平时做图像的目标检测也好,做大数据精准推荐也好,说到底就是做个分类,来一个数据,判断一下它的类别,该是谁的给谁。 假设有K个类别{C1,C2,...,Ck},来一条数据x,它属…

我们平时做图像的目标检测也好,做大数据精准推荐也好,说到底就是做个分类,来一个数据,判断一下它的类别,该是谁的给谁。

假设有K个类别{C1,C2,...,Ck},来一条数据x,它属于K个类别的概率分别记为P(C1|x), P(C2|x), ..., P(Ck,|x), 当然,x只能属于这K个类别中的一个,假设x属于C3, 只有当你算出来的P(C3|x)比其他的都高才能正确分类。

若存在一个分类准则h(x),使得对所有的数据x,都有P(c|x))最大(小c表示x真实所属的类别),那就太好了,所有数据都能正确分类。这就是我们的目标:h(x) = argmaxP(c|x),也就是对每一个x,被分到c类的概率最大。P(c|x)怎么得到呢——重点来了!我个人认为这是分类问题的核心。

两种方案:

1,判别式模型,如LR,决策树,神经网络。就是直接建立P(c|x)的模型,学一个判别式,输入是x,输出是类别;

2,生成式模型——贝叶斯定理:P(c|x) = P(c)*P(x|c)/P(x).点击这里,有一片很好理解的贝叶斯定理的简介。

我们重点看贝叶斯定理公式:

P(c)是先验概率,就是c类占整体的概率,通常用样本中c类的比例来代替;

P(x|c)是条件概率,也叫似然概率,意思是对一个c类,长成x的样子的概率;

P(x)是证据因子,相当于是一个归一化系数,为啥呢,因为全概率公式告诉我们:P(x) = SUM(P(ci)P(x|ci)),这部分对所有类都是一样的。

上面三个,唯一一个难以确定的是条件概率P(x|c),所以欲得后验概率,先算条件概率。假设样本有m个属性,即特征向量x有m维,假设每个属性是二值的(最简单的情况),样本空间也有2^m中可能的取值,这可能比样本总数还多,也就是说很多取值在训练样本中根本没有出现,直接通过样本观测频率估计P(x|c)是不可行的。

怎么办,一种思路就是假设样本符合某种分布,用已有样本来估计这种分布的参数——这就是最大似然估计。举个例子,我假设某个类别c的样本都是正态分布,那根据已有样本很容易计算该分布的均值和方差,概率密度曲线也就出来了,P(x|c)就易得。显然,最大似然估计是一种经验型的估计,其性能完全取决于“猜测”的分布型式跟真实分布的接近程度。

这里有必要提一下,统计学领域两个学派:频率主义学派和贝叶斯学派。他们一个显著区别在于:前者认为样本符合某一确定的分布,分布参数是一个定值,可以用已有样本估算;后者认为,分布参数本身也是随机分布的(可以说是分布的分布……),观测样本只能计算观测的后验分布。这个讲起来比较绕,我后面有机会再写一篇文章单好了。

极大似然估计出条件概率,后验概率也就可以由贝叶斯定理推出。对每个样本,选择使后验概率最大的标记作为类别。等等,故事并没有结束——这个时候来了一个新的角色——风险

最大后验概率也可以叫最小误分概率,就是说所有样本分出来,认为分错的最少的分类器就是最好的——这隐含了一个条件——每一类都同等重要。但现实中,把A错分成B,和把B错分成A,风险可能是不一样的啊!举一个常用的例子,你去银行用自动存款机存钱,存款机里的验钞机有时无法识别你的一些真钞而拒绝它们,这对银行来说是一种损失:失去这几张钞票的存款;但你想像一下,如果今天你拿了一沓假币去存,存款机居然收了(确实有过这种狗血的例子),这对银行是另一种损失:直接财产损失甚至破产。显然,后者严重得多!

所以,条件风险:R(ci|x)=SUM(wijP(cj|x)),其中wij表示把j误分为i的损失,P(cj|x)是j在x下出现的概率,即后验概率。我们的目标是使SUM(R(h(x)|x)),即所有样本的损失和最小。

总结:

极大似然估计用以估计条件概率,进而得到所需的后验概率;

极大似然估计的假设是样本符合某一分布,究竟符合什么分布往往是拍脑袋想的,可能并不准确;

使分类错误率最小的不一定是好的分类器,关键是看总体风险,若各类别满足0/1风险,就直接看最大后验概率就好。


http://www.lbrq.cn/news/2374795.html

相关文章:

  • 临城网站建设服务热线手游推广平台有哪些
  • 上海营销型网站seo推广链接点击器安卓版
  • 做网站一条龙五合一网站建设
  • 手机网站建设西安网络营销产品的首选产品
  • 中山网站建设公司哪个好深圳网络营销软件
  • 网站建设公司项目介绍百度收录的网站多久更新一次
  • 二环建设部网站微信scrm系统
  • 测试网站怎么做的山东seo网络推广
  • 软件定制公司官网seo方式包括
  • 公众号建网站seo需要懂代码吗
  • 制作网站网站站长工具seo推广 站长工具查询
  • 教做年糕博客网站深圳百度关键字优化
  • 怎么做网站的跳转最近的国际新闻
  • 重庆政府采购网站官网seo软文推广工具
  • 建设一个企业网站要多少钱廊坊百度推广seo
  • 优秀网站设计分析怎么做好推广
  • 网站做留言板b站推广入口2023破解版
  • 怎样做网站跳转下载百度推广app
  • 模板网站建设价位seo搜索优化邵阳
  • 门户网站直接登录系统企业培训机构排名
  • 有哪些公司做网站seo jsbapp9
  • wordpress获取评论广州网站优化服务
  • 三大门户网站哪家做的最好推广方法
  • 开源系统网站百度热搜关键词排行榜
  • 轩与巧之歌wordpress福州seo管理
  • 哪有培训网站开发seo外包公司一般费用是多少
  • 网站和管理系统的区别百度的人工客服
  • 衡水网页网站建设如何进行网站宣传推广
  • 网站建设准备工作总结最厉害的搜索引擎
  • 广东cba最新消息百度seo怎么样优化
  • 【科研绘图系列】R语言绘制分组箱线图
  • parallels desktop windows win10无法复制文件无法共享剪切板
  • 林曦词典|文质彬彬
  • Java学习--JVM(2)
  • 聚类算法原理与应用(一):K-means聚类算法原理
  • 【C# in .NET】16. 探秘类成员-索引器:通过索引访问对象