当前位置: 首页 > news >正文

怎样做自己的微商网站/百度网站推广价格

怎样做自己的微商网站,百度网站推广价格,电子印章在线制作网站,射阳做网站的公司文章目录一 最大熵马尔科夫和CRF二 条件随机场三 最大匹配法1 来源2 正向最大匹配法逆向最大匹配法双向最大匹配法一 最大熵马尔科夫和CRF 最大熵模型(MaxEnt):指的是多元逻辑回归 由于等概率的分布具有最大熵,所以最大熵的模型…

文章目录

  • 一 最大熵马尔科夫和CRF
  • 二 条件随机场
  • 三 最大匹配法
    • 1 来源
    • 2 正向最大匹配法
    • 逆向最大匹配法
    • 双向最大匹配法

一 最大熵马尔科夫和CRF

最大熵模型(MaxEnt):指的是多元逻辑回归

由于等概率的分布具有最大熵,所以最大熵的模型通过词性标注问题来描述就是:

  1. 在没有任何假设的情况下,认为每种词性的概率都是相同的,假设有10中词性,那么每个词性的概率都是1/10
  2. 如果语料表明,所有的词语出现的词性只有10个中的4个,那么此时,调整所有词的词性为A:1/4,B:1/4,C:1.4,D:1/4,E:0....A:1/4 ,B:1/4,C:1.4,D:1/4,E:0....A:1/4,B:1/4,C:1.4,D:1/4,E:0....
  3. 当继续增加语料,发现A和B的概率很高,10次中有8次,某个词的词性不是A就是B,那么此时调整词性概率为:A:4/10,B:4/10,C:1/10,D:1/10A:4/10,B:4/10,C:1/10,D:1/10A:4/10,B:4/10,C:1/10,D:1/10
  4. 重复上述过程

寻找一个熵最大的模型,就是要使用多元逻辑回归,训练他的权重w,让训练数据能够似然度最大化

训练数据能够似然度最大化:训练数据是总体的一个抽样,让训练数据尽可能能够代表总体,从而可以让模型可以有更好的表现力

**最大熵马尔科夫模型(MEMM)**是马尔科夫模型的变化版本。在马尔科夫模型中,使用贝叶斯理论来计算最有可能的观测序列,即:
t^n=argmaxtnP(tn∣wn)=argmaxtnP(wi∣ti)P(ti∣ti−1)\hat{t}_n = \mathop{argmax}_{t_n}P(t_n|w_n) = \mathop{argmax}_{t_n}P(w_i|t_i)P(t_i|t_{i-1}) t^n=argmaxtnP(tnwn)=argmaxtnP(witi)P(titi1)
但是在MEMM中,直接去计算了后验概率P(t|w),直接对每个观测值的状态进行分类,在MEMM中,把概率进行了拆解:
T^=argmaxTP(T∣W)=argmax∏iP(tagi∣wordi,tagi−1)\hat{T} = \mathop{argmax}_T P(T|W) = \mathop{argmax}\prod_i P(tag_i|word_i,tag_{i-1}) T^=argmaxTP(TW)=argmaxiP(tagiwordi,tagi1)
即:使用前一个状态tag和当前的词word,计算当前tag。

和隐马尔可夫模型不同的是,在上述的公式中,对于计算当前tag的分类过程中,输入不仅可以是wordi和tagi−1word_i和tag_{i-1}worditagi1,还可以包含其他的特征,比如:词语的第一个字母是否为大写,词语的后缀类型,前缀类型的等等。

所以MEMM的表现力会比HMM要更好。

二 条件随机场

**条件随机场(conditional random field,CRF)**是有输入x和输出y组成的一种无向图模型,可以看成是最大熵马尔可夫模型的推广。

下图是常用于词性标注的线性链 条件随机场的图结构。其中x是观测序列,Y是标记序列

在这里插入图片描述

下图是HMM,MEMM,CRF的对比
在这里插入图片描述

当观测序列为 x=x1,x2...x=x_1,x_2...x=x1,x2... 时,状态序列为 y=y1,y2....y=y_1,y_2....y=y1,y2....的概率可写为:
P(Y=y∣x)=1Z(x)exp⁡(∑kλk∑itk(yi−1,yi,x,i)+∑lμl∑isl(yi,x,i))Z(x)=∑yexp⁡(∑kλk∑itk(yi−1,yi,x,i)+∑lμl∑isl(yi,x,i))P(Y=y|x)=\frac{1}{Z(x)}\exp\biggl(\sum_k\lambda_k\sum_it_k(y_{i-1},y_i,x,i)+\sum_l\mu_l\sum_is_l(y_i,x,i)\biggr) \\ Z(x)=\sum_y\exp\biggl(\sum_k\lambda_k\sum_it_k(y_{i-1},y_i,x,i)+\sum_l\mu_l\sum_is_l(y_i,x,i)\biggr) P(Y=yx)=Z(x)1exp(kλkitk(yi1,yi,x,i)+lμlisl(yi,x,i))Z(x)=yexp(kλkitk(yi1,yi,x,i)+lμlisl(yi,x,i))
其中Z(x)Z(x)Z(x)是归一化因子,类似softmax中的分母,计算的是所有可能的y的和

后面的部分由特征函数组成:

转移特征: tk(yi−1,yi,x,i)t_k(y_{i-1},y_i,x,i)tk(yi1,yi,x,i) 是定义在边上的特征函数(transition),依赖于当前位置 i 和前一位置 i-1 ;对应的权值为 λk\lambda_kλk

状态特征: sl(yi,x,i)s_l(y_i,x,i)sl(yi,x,i) 是定义在节点上的特征函数(state),依赖于当前位置 i ;对应的权值为 μl\mu_lμl

一般来说,特征函数的取值为 1 或 0 ,当满足规定好的特征条件时取值为 1 ,否则为 0 。

对于北\B京\E欢\B迎\E你\E特征函数可以如下:

func1 = if (output = B and feature="北") return 1 else return 0
func2 = if (output = M and feature="北") return 1 else return 0
func3 = if (output = E and feature="北") return 1 else return 0
func4 = if (output = B and feature="京") return 1 else return 0

每个特征函数的权值 类似于发射概率,是统计后的概率。

三 最大匹配法

1 来源

最大匹配法是最简单的分词方法,完全使用词典进行分词,如果词典好,则分词的效果好

2 正向最大匹配法

正向,即从左往右进行匹配

#Maximum Match Method 最大匹配法class  MM:def __init__(self):self.window_size = 4def cut(self,text):result = []index = 0text_lenght = len(text)#研究生命的起源dic = ["研究","研究生","生命"]while text_lenght >index:#range(3,0,-1)for size in range(min(self.window_size+index,text_lenght),index,-1):piece = text[index:size]print("size:", size,piece)if piece in dic:index = size-1breakindex = index+1  #第一次结束index = 3result.append(piece)print(result)return result

逆向最大匹配法

逆向即从右往左进行匹配

#RMM:Reverse Maxmium Match method 逆向最大匹配class RMM:def __init__(self):self.window_size = 3def cut(self,text):result = []index = len(text)#研究生命的起源dic = ["研究","研究生","生命"]while index>0:for size in range(max((index-self.window_size),0),index):piece = text[size:index]print("size:", size,piece)if piece in dic:index = size+1print("index:", index)breakprint("index:",index)index = index - 1result.append(piece)result.reverse()print(result)return result

双向最大匹配法

同时根据正向和逆向的结果,进行匹配

class MCut():def __init__(self):self.mm = MM()self.rmm = RMM()def cut(self,sentence):"""1. 词语数量不相同,选择分词后词语数量少的2. 如果词语数量相同,返回单字数量少的"""mm_ret = self.mm.cut(sentence)rmm_ret = self.rmm.cut(sentence)if len(mm_ret)==len(rmm_ret):mm_ret_signle_len = len([i for i in mm_ret if len(i)==1])rmm_ret_signle_len = len([i for i in rmm_ret if len(i)==1])return mm_ret if rmm_ret_signle_len>mm_ret_signle_len else rmm_retelse:return mm_ret if len(mm_ret)<len(rmm_ret) else rmm_ret
http://www.lbrq.cn/news/1239679.html

相关文章:

  • 自己公司内网网站和外网怎么做同步/免费的发帖收录网站
  • 开发平台网站多少钱/海阳seo排名优化培训
  • 武穴市住房和城乡建设局网站/友情链接教程
  • 有赞微商城官网登录/seo网站排名的软件
  • 如何做网站预览/项目网
  • 商务网站设计与制作/百度咨询
  • 网站在vps能访问 在本地访问不了/学校seo推广培训班
  • 做门户型网站/网站视频
  • 七牛云建网站/下载百度app最新版到桌面
  • 牡丹江市营商环境建设监督局网站/廊坊关键词排名优化
  • 牛杂网这类网站怎么做的/aso推广公司
  • 手机网站自适应代码/常州seo建站
  • 设计网站大全免费下载/旺道seo优化软件怎么用
  • 东莞做网站服务商/专业的郑州网站推广
  • 公司网站设计网络公司/seo入门黑帽培训教程
  • 网站建设的好处/新产品推广策划方案
  • app网站做二手交易/班级优化大师官网
  • wordpress插件是中文吗/seo公司 引擎
  • 云南网站建设一度科技公司/seo关键词排名查询
  • 漂亮的设计类图片网站/百度关键词指数排行
  • 网站开发人员需要什么技能/网络科技公司网站建设
  • 做网站如何更新百度快照/天堂tv在线观看
  • 合肥如何做百度的网站推广/百度做广告推广怎么样
  • 上海人才引进网站/营销网站的建造步骤
  • 网站制作厦门/搜索引擎优化的作用
  • 5网站建设/网站推广优化排名seo
  • 深圳阿里网站设计公司/郑州网络公司排名
  • wordpress添加分类无响应/百度关键词优化点击 教程
  • 厚街网站建设报价/爱站工具包官网下载
  • 建设网站网站企业/建立自己的网站平台
  • node.js常用函数
  • Oracle 11gR2 Clusterware应知应会
  • PyTorch 张量核心操作——比较、排序与数据校验
  • 机器学习 —— 决策树
  • 2025 腾讯广告算法大赛 Baseline 项目解析
  • 赛思NTP服务器选型推荐,赛思NTP服务器云端助力“数智伊利”步入现实!