当前位置: 首页 > news >正文

wordpress代码添加文章字段栏目关键词查询优化

wordpress代码添加文章字段栏目,关键词查询优化,wordpress 图片特效插件下载,武汉手机网站建设品牌天龙八部主要是对段誉、萧峰、虚竹三人的描写,那么谁才是真正的主角呢?这次姑且认为小说中谁的出现次数多谁是主角。 实验在linux环境下 首先下载天龙八部wget http://labfile.oss.aliyuncs.com/hadoop/tlbbtestfile.txt安装结巴分词sudo pip install ji…

天龙八部主要是对段誉、萧峰、虚竹三人的描写,那么谁才是真正的主角呢?这次姑且认为小说中谁的出现次数多谁是主角。

 实验在linux环境下

首先下载天龙八部
wget http://labfile.oss.aliyuncs.com/hadoop/tlbbtestfile.txt
安装结巴分词
sudo pip install jieba
hdfs dfs -put tlbbtestfile.txt /tlbb.txt

# 创建代码文件夹
mkdir tlbbwordcount
# 创建 Mapper 程序文件
touch tlbbwordcount/mapper.py
# 创建 Reducer 程序文件
touch tlbbwordcount/reducer.py
# 给所有 Python 脚本增加可执行权限
chmod a+x tlbbwordcount/*.py

mapper程序:

 1 #!/usr/bin/env python
 2 
 3 # 引入 jieba 分词模块
 4 import jieba
 5 import sys
 6 
 7 # 从 stdin 标准输入中依次读取每一行
 8 for line in sys.stdin:
 9 
10      # 对每一行使用 jieba 分词进行分词
11     wlist = jieba.cut(line.strip())
12 
13     # 对分词得到的词汇列表进行 Map 操作
14     for word in wlist:
15         try:
16               # 每个词都映射成(word,1)这样的二元组
17               # 输出到标准输出 stdout 中
18             print "%s\t1" % (word.encode("utf8"))
19         except:
20             pass

reducer程序:

#!/usr/bin/env python
import sys# 定义临时变量存储中间数据
current_word, current_count, word=None,1,None# 依次从标准输入读取每一行
for line in sys.stdin:try:# 每一行都是一个(word,count)的二元组,从中提取信息词语和数量line = line.rstrip()word, count = line.split("\t", 1)count = int(count)except: continue# 判断当前处理的词是从当前行提取的词if current_word == word:# 如果是,则增加当前处理的词出现的频次current_count += countelse:# 如果不是,则需要输出当前处理的词和词频到标准输出if current_word:print "%s\t%u" % (current_word, current_count)current_count, current_word = count, word# 读取完毕后需要处理当前词是读取词,但没有输出的情况
if current_word == word:print "%s\t%u" % (current_word, current_count)

 

执行任务:

hadoop jar /opt/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar -mapper mapper.py -reducer reducer.py -input /tlbb.txt -output tlbbout -jobconf mapred.map.tasks=4 -jobconf mapred.reduce.tasks=2

结果:

 

 

实验地址:

https://www.shiyanlou.com/courses/40/labs/305/document

转载于:https://www.cnblogs.com/mycd/p/7865462.html

http://www.lbrq.cn/news/2599759.html

相关文章:

  • 天津河西做网站公司百度指数网址
  • 寻找东莞微信网站建设seo先上排名后收费
  • wordpress虚拟3d网站网络推广方案模板
  • 怎样建设有价值的网站小程序开发文档
  • 自己做的网站涉黄阿里指数官网最新版本
  • 免费制作网站和网页成都seo培
  • 建设雅马哈摩托车官网报价及图片网站关键词排名优化
  • 网站建设 软件开发网站搜索引擎优化情况怎么写
  • 自己做网站如何月入3k如何成为app推广代理
  • dw做网站实例项目推广网
  • 美武汉有什么网站建设公司策划营销
  • 开发公司 张庆网站建设排名优化
  • 电脑版和手机版网站怎么做企业网站建设需求分析
  • 长沙岳麓区做网站郴州网络推广公司排名
  • wordpress+爱情主题公园seo排名分析
  • 做网站需要先买域名吗seo有哪些经典的案例
  • seo整站优化公司100%能上热门的文案
  • 深圳网站制作公司深圳网站制作公司seo和sem的区别是什么?
  • 外包服务属于什么行业百度网站的优化方案
  • 东莞工商注册代办公司注册沈阳seo排名收费
  • 房山青岛网站建设河南怎样做网站推广
  • 奶茶电商网站建设长沙靠谱seo优化费用
  • 网站开发需要准备什么软件网站如何优化
  • 惠州网站建设价格2022年传销最新消息
  • 介绍一个电影的网站模板企业网页设计公司
  • 沭阳做网站的公司百度广告投放技巧
  • 做团购网站有什么难处百度搜索大数据查询
  • 许昌市网站开发自动优化app
  • 太原网站建设方案策划seo内部优化具体做什么
  • 帮人做网站要怎么赚钱如何宣传推广自己的产品
  • 数据结构04 栈和队列
  • Could not load the Qt platform plugin “xcb“ in “无法调试与显示Opencv
  • GPT-5的诞生之痛:AI帝国的现实危机
  • Java学习第一百零六部分——Lucene
  • 《Python 实用项目与工具制作指南》· 2.3 导入
  • CMake 命令行参数完全指南(2)