当前位置: 首页 > news >正文

湘潭建设网站公司如何把一个关键词优化到首页

湘潭建设网站公司,如何把一个关键词优化到首页,南宁疫情最新消息,彩票网站制作商粗略来讲,jieba支持精确模式、全模式、搜索引擎模式、paddle模式,共4种模式。学习jieba 最好的参考资料是readme文件,在官方readme中除了以上4种模式还详细介绍了词性、关键词提取、修改词频suggest_freq、命令行分词、动态修改词典add_word等…

粗略来讲,jieba支持精确模式、全模式、搜索引擎模式、paddle模式,共4种模式。学习jieba 最好的参考资料是readme文件,在官方readme中除了以上4种模式还详细介绍了词性、关键词提取、修改词频suggest_freq、命令行分词、动态修改词典add_word等等方法

https://github.com/fxsjy/jieba

import jiebastring = '中国上海是一座美丽的国际性大都市'# ######## 1、jieba.cut 返回迭代器,有全模式和精确模式"""def cut(self, sentence, cut_all=False, HMM=True, use_paddle=False)The main function that segments an entire sentence that containsChinese characters into separated words.Parameter:- sentence: The str(unicode) to be segmented.- cut_all: Model type. True for full pattern, False for accurate pattern.默认False精确模式- HMM: Whether to use the Hidden Markov Model.对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法,使一些未出现的词能够正确拆分,也就是新词发现功能- use_paddle:paddle模式,双向GRU模型进行序列标注"""# 全模式,返回会有重叠
seg_list = jieba.cut(string, cut_all=True)
# print(seg_list)  # 返回迭代器 <generator object Tokenizer.cut at 0x7fbe83e733b8>
print("jieba.cut 全模式: " + "/ ".join(seg_list))  # 中国/ 上海/ 是/ 一座/ 美丽/ 的/ 国际/ 国际性/ 大都/ 大都市/ 都市# 精确模式
seg_list = jieba.cut(string, cut_all=False)
print("jieba.cut 精确模式: " + "/ ".join(seg_list))  # 中国/ 上海/ 是/ 一座/ 美丽/ 的/ 国际性/ 大都市# ######## 2、jieba.lcut 返回列表,就是对cut的结果再封装
"""
def lcut(self, *args, **kwargs):return list(self.cut(*args, **kwargs))
"""
seg_list = jieba.lcut(string)
print("jieba.lcut : ", seg_list)   # ['中国', '上海', '是', '一座', '美丽', '的', '国际性', '大都市']# ######## 3、jieba.cut_for_search 返回迭代器,搜索引擎模式"""
def cut_for_search(self, sentence, HMM=True):Finer segmentation for search engines.
"""# 搜索引擎模式,对精确模式再拆分,最大子词在最后
seg_list = jieba.cut_for_search(string)
# print(seg_list)  # 返回迭代器 <generator object Tokenizer.cut_for_search at 0x7f8487c733b8>
print("jieba.cut_for_search 搜索引擎模式: " + "/ ".join(seg_list))  # 中国/ 上海/ 是/ 一座/ 美丽/ 的/ 国际/ 国际性/ 大都/ 大都市/ 都市# ######## 4、load_userdict 添加自定义词典
# 用POSTokenizer返回词性
from jieba.posseg import POSTokenizer
string2 = '小蘑菇是一本我很喜欢的小说'
exp_jieba = POSTokenizer(tokenizer=None)
word_cut = exp_jieba.lcut(string2)# [pair('小', 'a'), pair('蘑菇', 'n'), pair('是', 'v'), pair('一本', 'm'), pair('我', 'r'), pair('很', 'd'), pair('喜欢', 'v'), pair('的', 'uj'), pair('小说', 'n')]
print(word_cut)exp_jieba.load_userdict('./tmp/aaa')
"""
aaa 的内容如下,格式为:词语、词频(可省略)、词性(可省略)
小蘑菇 1000 book
莉莉丝 1000 name
"""
word_cut = exp_jieba.lcut(string2)
print(word_cut)# [pair('小蘑菇', 'book'), pair('是', 'v'), pair('一本', 'm'), pair('我', 'r'), pair('很', 'd'), pair('喜欢', 'v'), pair('的', 'uj'), pair('小说', 'n')]# 直接用jieba加载自定义词典
seg_list = jieba.lcut(string2)
print("jieba.lcut : ", seg_list)  # ['小', '蘑菇', '是', '一本', '我', '很', '喜欢', '的', '小说']jieba.load_userdict('./tmp/aaa')
seg_list = jieba.lcut(string2)
print("jieba.lcut load_userdict : ", seg_list)  # ['小蘑菇', '是', '一本', '我', '很', '喜欢', '的', '小说']# ######## 5、分词,词位置查询
res = jieba.tokenize(string2)
for i in res:print(i)
"""
('小蘑菇', 0, 3)
('是', 3, 4)
('一本', 4, 6)
('我', 6, 7)
('很', 7, 8)
('喜欢', 8, 10)
('的', 10, 11)
('小说', 11, 13)
"""

http://www.lbrq.cn/news/2453437.html

相关文章:

  • WordPress漏洞报告整站优化和单词
  • 绍兴企业做网站google关键词工具
  • 专业网站建设在哪里小广告多的网站
  • 手机网站显示建设中深圳网站建设公司排名
  • 如何建造一个网站广州做seo的公司
  • 做ppt的图片素材网站花都网站建设公司
  • 做印量调查的网站seo博客
  • 设计网站printestseo官网优化
  • 扁平化设计风格网站网站建设公司官网
  • 广州微网站建设效果刷钻业务推广网站
  • lua做网站焊工培训ppt课件
  • 南京网站排名关键词优化百家号
  • 全国疫情最新资讯windows优化大师会员兑换码
  • 江油网站建设自制网站
  • 建设工程质量监督站网站站长工具ip查询
  • php怎么做网站后台品牌推广营销平台
  • 西安网络公司做网站快照网站
  • wordpress漫画模板宁波seo推广哪家好
  • 介休做网站江阴百度推广公司
  • 电子商务网站建设规划书范文青岛网站制作公司
  • 网站效果用什么软件做百度seo泛解析代发排名
  • 荣成网站制作公司谷歌play
  • wordpress后台编辑网站seo关键词排名查询
  • 实时爬虫网站是怎么做的网络推广员每天的工作是什么
  • 重庆网站营销公司友情链接平台站长资源
  • 不会被封的网站谁做如何让自己网站排名提高
  • 淮安网站建设制作网络营销企业有哪些公司
  • 太仓公司做网站潍坊网站建设
  • 怎么做英文垃圾网站怎么自己弄一个网站
  • 深圳哪里有做网站推广的搜狗搜索排名优化
  • Dify开发教程笔记(一): 文件及系统参数变量说明及使用
  • OpenCV学习探秘之一 :了解opencv技术及架构解析、数据结构与内存管理​等基础
  • kafka的消费者负载均衡机制
  • which soffice soffice not found
  • 图片查重从设计到实现(4)图片向量化存储-Milvus 单机版部署
  • docker-compose up -d 显示no configuration file provided: not found什么问题