当前位置: 首页 > news >正文

一锅汤资源网站建设大全企业seo整站优化方案

一锅汤资源网站建设大全,企业seo整站优化方案,网站开发工作平时做什么,wordpress百度分享插件下载地址实验内容 使用任意分词方法进行分词 实验要求和目的 使用任意分词方法实现汉语自动分词; 给出至少 1000 个句子的分词结果(以附件形式); 计算出分词结果的正确率,并给出计算依据; 用实例说明所用分词…

实验内容

使用任意分词方法进行分词

实验要求和目的

使用任意分词方法实现汉语自动分词;

给出至少 1000 个句子的分词结果(以附件形式);

计算出分词结果的正确率,并给出计算依据;

用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力;

提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。

实验环境

操作系统 macOS Sierra

内存 16G

开发语言 Python

程序主要算法

如对一个字符串:

S:有意见分歧

分词结果 1: w1:有/ 意见/ 分歧/

分词结果 2: w2:有意/ 见/ 分歧/

最大概率分词就是要求得 Max(P(w1|s),P(w2|s)) 。

根据贝叶斯公式:

P(w|s)=P(s|w)P(w)/P(s) (公式 1)

在公式 1 中,因为 P(s)和 P(w|s)都基本一样,因此,就求最大的 P(w)即可。根据一元语法,词之间出现的概率互相独立,因此有下面的公式成:

P(w)=P(w1,w2,…,w3)=P(w1)P(w2)…P(w3) (公式 2)

即字符串出现的概率就是构成字符串的各个词的概率之积。而一个词的概率可以按照其出现的次数除以语料中总的词数得到。

分析下面的例子,我们可以计算得到各个词的概率为:

  • 有:0.018
  • 有意:0.0005
  • 意见:0.001
  • 见:0.0002
  • 分歧:0.0001

则根据公式 2 有:

  • P(w1)=p(有)P(意见)P(分歧)=0.0180.0010.0001=1.8*10^(-9)
  • P(w2)=P(有意)P(见)P(分歧)=0.00050.00020.0001=1*10^(-11)
  • 由于 P(w1)>P(w2),故 w1 为该字符串的分词结果。

当然,在实际操作过程中,如果字符串比较长,分词的形式就会非常多,计算量和长度呈指数增长关系,因此需要采用一定的来减少运算量,我们可以看到字符串的概率是累计相乘的,因此可以采用动态规划的方法来减少运算量。

这里记 P`(w)为到达候选词 wi 时的累计概率,则

P (wi)=P(wi-1)P(wi)(公式 3)

根据公式 3,有 P (意见)=P(有)P(意见)

实验过程

首先利用微博词频语料库构造分词训练语料库,使用 Sogou 新闻语料作为训练集。然后使用分词算法输出到文本文件。

实验结果

分词好的 700 多条句子已经放到压缩包中,名为 seg.txt

实验结论和体会

通过分词实验,探索了很多分词方案。如 HMM/FMM,以及本文说的概率最大分词法。对机器学习有了一定的了解。

http://www.lbrq.cn/news/2417491.html

相关文章:

  • 部队网站怎么做黑帽seo365t技术
  • 建的网站403百度收录申请入口
  • 营销网站四大要素苏州seo营销
  • 找人做网站服务器不是自己的怎么办企业营销平台
  • 城乡与住房建设厅官网seo顾问张智伟
  • wordpress回复页面seo的基本步骤
  • 一个好的产品怎么推广seo怎么做推广
  • 什么是微网站系统seo优化思路
  • 各主流网站做景区宣传球队排名榜实时排名
  • 网页模板网站生成东莞网站推广优化公司
  • 股票实时交易网站开发百度登录个人中心官网
  • 网站开发网站建设公司seo搜索引擎排名优化
  • 手机网站样式代码微信营销软件免费版
  • 濮阳网站建设广州网站推广平台
  • 中国新闻社是什么级别萧山区seo关键词排名
  • 网站营销的分类有哪些seo网站排名优化软件是什么
  • 安徽省级建设主管部门网站搜索引擎营销特点
  • 郑州有做彩票网站的吗企业网站推广方法实验报告
  • 深圳微信网站公司哪家好现在有什么技能培训班
  • 上海网站推广模板seo网页优化工具
  • 武汉网站推广服务百度小程序seo
  • 大鹏网络网站建设报价守游网络推广平台
  • seo短视频网页入口引流网站推荐网站建设方案模板
  • 网站公司建设台州seo排名公司
  • 高端网站建设专业网站如何做seo推广
  • 告状书放网站上怎么做什么是网络营销工具
  • 上海网站建设开发公司seo综合查询工具下载
  • 文山做网站安卓优化大师最新版下载
  • 西宁公安网站建设四川成都最新消息
  • 建站的注意事项官网站内推广内容
  • 创建一个触发csrf的恶意html
  • Nginx的location匹配规则
  • 金融工程、金融与经济学知识点
  • Datawhale AI数据分析 作业
  • Linux“一切皆文件“设计哲学 与 Linux文件抽象层:struct file与file_operations的架构解析
  • 浏览器渲染原理——计算属性和布局过程常考内容