当前位置: 首页 > news >正文

建设一个旅游电子商务网站/网络营销以什么为中心

建设一个旅游电子商务网站,网络营销以什么为中心,微信营销方案,网易发布广州Word Co-occurrence一直不知道该怎么正确翻译, 单词相似度?还是共生单词?还是单词的共生矩阵?这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推…

Word Co-occurrence一直不知道该怎么正确翻译, 单词相似度?还是共生单词?还是单词的共生矩阵?

这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因为它能够提供的结果是"人们看了这个,也会看那个".比如做一些协同过滤之外的购物商品的推荐,信用卡的风险分析,或者是计算大家都喜欢什么东西.


比如 I love you , 出现 "I love" 的同时往往伴随着 "love you" 的出现,不过中文的处理跟英文不一样,需要先用分词库做预处理.


按照Mapper, Reducer和Driver的方式拆分代码

Mapper程序:

package wco;import java.io.IOException;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class WCoMapper extends Mapper<LongWritable, Text, Text, IntWritable> {@Overridepublic void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {/** 将行内容全部转换为小写格式.*/String line_lc = value.toString().toLowerCase();String before = null;/**  将行拆分成单词*  并且key是前一个单词加上后一个单词*  value 是 1*/for (String word : line_lc.split("\\W+")) { //循环行内容,按照空格进行分割单词if (word.length() > 0) {if (before != null) { //如果前词不为空,则写入上下文(第一次前词一定是空,直接跳到下面的before = word)context.write(new Text(before + "," + word), new IntWritable(1));}before = word; //将现词赋值给前词}}}
}


Reducer程序:

package wco;import java.io.IOException;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class WCoReducer extends Reducer<Text, IntWritable, Text, IntWritable> {@Overridepublic void reduce(Text key, Iterable<IntWritable> values, Context context)throws IOException, InterruptedException {int wordCount = 0;for (IntWritable value : values) {wordCount += value.get(); //单纯计算word count}context.write(key, new IntWritable(wordCount));}
}


Driver程序就不解释了,天下的Driver都一样:

package wco;import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;public class WCo extends Configured implements Tool {@Overridepublic int run(String[] args) throws Exception {if (args.length != 2) {System.out.printf("Usage: hadoop jar wco.WCo <input> <output>\n");return -1;}Job job = new Job(getConf());job.setJarByClass(WCo.class);job.setJobName("Word Co Occurrence");FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));job.setMapperClass(WCoMapper.class);job.setReducerClass(WCoReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);boolean success = job.waitForCompletion(true);return success ? 0 : 1;}public static void main(String[] args) throws Exception {int exitCode = ToolRunner.run(new Configuration(), new WCo(), args);System.exit(exitCode);}
}


算法的核心其实就是把前词和后词同时取出来作为key加上一个value做word count,统计单词的共生频率来对文本进行聚类.看网上说k-means的很多,其实很多时候算法是根据需求走的,k-means或者模糊k均值不一定就高大上,wordcount也不一定就穷矮矬.

http://www.lbrq.cn/news/1587475.html

相关文章:

  • 帮别人做彩票网站吗/线下营销推广方式有哪些
  • 佛山建设专业网站/百度seo报价方法
  • 网站建设优化文档/网站制作多少钱
  • 网站 优化 日志/淘宝指数查询工具
  • 信息流广告是什么意思?/推广关键词如何优化
  • 小说网站的里面的搜索是怎么做的/app平台搭建需要多少钱
  • 泰州网页制作/郑州seo管理
  • 做宠物网站还有前景嘛/网销是什么工作好做吗
  • 路桥贝斯特做网站好吗/微营销推广方案
  • 网站怎么做社区营销/百度广告电话号码是多少
  • wordpress离线发布/网络优化工程师吃香吗
  • 两学一做教育纪实评价系统网站/软件排名优化
  • 武陵天下网站建设/发帖百度秒收录网站分享
  • 建设网站的意义作用是什么意思/微商推广哪家好
  • 西宁seo网站建设/武汉seo网站推广
  • 广元市规划和建设局网站/sem投放是什么意思
  • jsp 数据库做网站/热搜排行榜今日排名
  • 金融网站建设/成功的营销案例及分析
  • 020网站建设和维护费用/网站关键词优化代理
  • 东昌府网站制作/在线培训考试系统
  • 网站浏览排名/正规seo需要多少钱
  • 河北移动端网站制作/南宁网站seo优化公司
  • 高端网站建设网站建设设计思路/软文接单平台
  • 如何找回网站后台密码/大二网络营销实训报告
  • 网站建设与管理 孙伟/免费源码资源源码站
  • 免费行情网站app大全/百度信息流投放
  • 海口注册公司流程及费用/福州seo建站
  • 企业信息化建设如何帮助客户理解网站流量/营销策划的八个步骤
  • 自己做网站怎么编代码/如何开展网络营销活动
  • 申请域名后怎么做网站/建网站的软件
  • Python Socket 脚本深度解析与开发指南
  • FastDeploy2.0:报qwen2.embed_tokens.weight
  • Mysql-事务
  • 工作相关: 预刷真值与人工标注的真值之间的关系 以及 真值与原始数据的关系,
  • LLM开发——语言模型会根据你的提问方式来改变答案
  • 阿里云百炼平台创建智能体-上传文档