当前位置: 首页 > news >正文

网站怎么做不违法贵阳seo网站推广

网站怎么做不违法,贵阳seo网站推广,行业网站建设价格,男女在床上做羞羞的事的网站2019独角兽企业重金招聘Python工程师标准>>> 1、什么是倒排索引。 e>>>(⊙o⊙)… 这是我见过最垃圾的翻译了,完全让人误解他的意思。 这个名称很容易让人理解为从A-Z的排序颠倒成Z-A,其实根本不是这么回事。 英文 原版为 inverted i…

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

1、什么是倒排索引。

e>>>(⊙o⊙)… 这是我见过最垃圾的翻译了,完全让人误解他的意思。

这个名称很容易让人理解为从A-Z的排序颠倒成Z-A,其实根本不是这么回事。

英文 原版为 inverted index  个人感觉翻译成 反向索引 比较合适。

倒排索引是区别于正排索引(forward index)来说的。

解释:

文档是有许多的单词组成的,其中每个单词也可以在同一个文档中重复出现很多次,当然,同一个单词也可以出现在不同的文档中。

正排索引(forward index):从文档角度看其中的单词,表示每个文档(用文档ID标识)都含有哪些单词,以及每个单词出现了多少次(词频)及其出现位置(相对于文档首部的偏移量)。

倒排索引(inverted index,或inverted files):从单词角度看文档,标识每个单词分别在那些文档中出现(文档ID),以及在各自的文档中每个单词分别出现了多少次(词频)及其出现位置(相对于该文档首部的偏移量)。

简单记为:
正排索引:文档 ---> 单词 常规的索引是文档到关键词的映射
倒排索引:单词 ---> 文档 倒排索引是关键词到文档的映射

应用场景:

倒排索引有着广泛的应用场景,比如搜索引擎、大规模数据库索引、文档检索、多媒体检索/信息检索领域等等。总之,倒排索引在检索领域是很重要的一种索引机制。

 

2、inverted index 的java实现

 假设有3篇文章,file1, file2, file3,文件内容如下: 

102257_zn9t_2885163.png

  那么建立的倒排索引就是这个样子:

102244_2G9j_2885163.png

下面是对于倒排索引的一个简单的实现。该程序对于输入的一段文字,查找出该词所出现的行号以及出现的次数。

import java.io.*;  
import java.util.HashMap;  
import java.util.Map;  public class InvertedIndex {  private Map<String, Map<Integer, Integer>> index;  private Map<Integer, Integer> subIndex;  public void createIndex(String filePath) {  index = new HashMap<String, Map<Integer, Integer>>();  try {  File file = new File(filePath);  InputStream is = new FileInputStream(file);  BufferedReader read = new BufferedReader(new InputStreamReader(is));  String temp = null;  int line = 1;  while ((temp = read.readLine()) != null) {  String[] words = temp.split(" ");  for (String word : words) {  if (!index.containsKey(word)) {  subIndex = new HashMap<Integer, Integer>();  subIndex.put(line, 1);  index.put(word, subIndex);  } else {  subIndex = index.get(word);  if (subIndex.containsKey(line)) {  int count = subIndex.get(line);  subIndex.put(line, count+1);  } else {  subIndex.put(line, 1);  }  }  }  line++;  }  read.close();  is.close();  } catch (IOException e) {  System.out.println("error in read file");  }  }  public void find(String str) {  String[] words = str.split(" ");  for (String word : words) {  StringBuilder sb = new StringBuilder();  if (index.containsKey(word)) {  sb.append("word: " + word + " in ");  Map<Integer, Integer> temp = index.get(word);  for (Map.Entry<Integer, Integer> e : temp.entrySet()) {  sb.append("line " + e.getKey() + " [" + e.getValue() + "] , ");   }  } else {  sb.append("word: " + word + " not found");  }  System.out.println(sb);  }  }  public static void main(String[] args) {  InvertedIndex index = new InvertedIndex();  index.createIndex("news.txt");  index.find("I love Shanghai today");  }  
}  

  其中,输入文件news.txt内容为:

I am eriol  
I live in Shanghai and I love Shanghai  
I also love travelling  
life in Shanghai  
is beautiful  

输出结果为:

word: I in line 1 [1] , line 2 [2] , line 3 [1] ,   
word: love in line 2 [1] , line 3 [1] ,   
word: Shanghai in line 2 [2] , line 4 [1] ,   
word: today not found  

 

 

参考来自!  倒排索引简单实现  

                  知乎:倒排索引为什么叫倒排索引?

另外的资源学习(本文并未涉及)

                   倒排索引的java实现

                   MapReduce实现倒排索引(类似协同过滤)

              hadoop倒排索引

转载于:https://my.oschina.net/zjllovecode/blog/1554246

http://www.lbrq.cn/news/2527993.html

相关文章:

  • 网站建设存在四个问题b站推广怎么买
  • 济南做网站多少钱建设官网的网站首页
  • 网站开发内容aso优化哪家好
  • 舟山 做企业网站北京seo教师
  • 关于做网站的调查问卷怎么弄自己的网站
  • 深圳做网站 龙华信科百度一下官网首页登录
  • 网站建设电话客服话术游戏推广员上班靠谱吗
  • 网站维护需要什么技能公司网站建设服务
  • 怎么制作网站开发设计东莞全网推广
  • 网站源码程序下载企业网络推广服务
  • 河间市网站建设价格友情链接教程
  • 外贸网站如何做谷歌怎么推广自己的网站
  • 知己知彼网站关键词搜索爱站
  • 网站建设需要哪些设备公司网络营销推广软件
  • 淄博网站建设排行榜搜索引擎广告形式有
  • 国内专业网站建设公司班级优化大师官网下载
  • 一品威客网接单app是真的吗专业网站优化培训
  • 广西桂林漓江网络公司seo推广
  • WordPress自己写主题优化设计三年级上册答案语文
  • 晋江做网站模板网站搜索排名靠前
  • 专门做日租房的网站网站关键词
  • 百度权重1关键词优化推广排名
  • 广州设计公司网站网络推广岗位职责和任职要求
  • magento做预订类网站备案查询官网
  • ae做网站导航苏州seo优化
  • 网站前端建设都需要什么问题广告投放平台都有哪些
  • 大连科技学院官方网站的建设与放今日实时热搜
  • 制作网站怎么做滚动条百度竞价推广价格
  • 淘宝客15套单页网站程序模板打包百度一下你就知道了官网
  • 深圳外贸建站网络推广联客易华夏思源培训机构官网
  • Excel文件解析
  • 【计算机网络】5传输层
  • 2023 年 NOI 最后一题题解
  • USRP捕获手机/路由器数据传输信号波形(上)
  • [硬件电路-106]:模拟电路 - 电路为什么会出现不同的频率特性?元件频率依赖性、信号传输路径、电路拓扑结构、外部因素
  • HTML第一次作业