当前位置: 首页 > news >正文

做资质去哪个网站填资料免费注册公司

做资质去哪个网站填资料,免费注册公司,js网站一键变灰,服装网站建设目标文章目录 概要一、正排索引二、倒排索引三、Q&A四、参考 概要 很早就研究了Es倒排索引的具体实现,但对倒排索引和正派索引的定义不是那么清晰,本文就是简述本人对二者的理解。 正排索引和倒排索引的概念来源于 正排索引是文档(ID)到关键词的映射&am…

文章目录

    • 概要
    • 一、正排索引
    • 二、倒排索引
    • 三、Q&A
    • 四、参考

概要

很早就研究了Es倒排索引的具体实现,但对倒排索引和正派索引的定义不是那么清晰,本文就是简述本人对二者的理解。
正排索引和倒排索引的概念来源于

正排索引是文档(ID)到关键词的映射(已知文档找关键词),倒排索引是关键词到文档(ID)的映射(已知关键词找文档)。
注意这里的文档是指文档ID,而非文档本身,但通过文档ID可以找到文档的数据实体,
这里的文档ID并非必须是MySQL中的主键,Es中的Doc Id,MongoDB的ObjectId,而是任何可以定位到文档的唯一特定词。

ps:明确我们这里讨论的文档是文档包含多个字段,字段对应具体值的结构,比如MySQL、Es、MongoDb等都是这种层级结构,很多博文说文档映射关键词,就是本文中字段的具体值到所包含关键词的映射过程。

一、正排索引

正排索引(forward index),也叫attribute or profile index,是通过对doc某特定字段(正排字段)的具体值建立索引,在将具体值分词后,得到不少于1个的关键词,索引中记录了这些关键词内容、位置、次数等信息。常用来进行过滤,统计,排序或算分使用。

正排索引中“正"指的是从doc field—>doc field keys的映射过程 ,其优点是结构简单、建立方便,适用于文档量较小的情况。对于大规模的文档集,正排索引的检索效率较低,因为需要扫描所有文档以找到包含特定关键字的文档。

假设有一系列文档,文档中有若干字段,其中以name字段建立正排索引形式如下:

name字段值关键词信息文档(ID)
my is tom,hello tommy,is, tom, hello1
you are tomyou,are,tom2
my is bob,he is johnmy,is,bob,he,john3

当然了组织索引的具体数据结构暂不讨论,可以B+Tree、HashMap、SkipList等等。
但是我们可以通过正排索引快速的定位某个文档是否包含特定关键词,以及关键词次数、位置等信息。

显而易见,正排索引更符合人类整理信息的习惯,构建简单,但查找效率低下,一般数据检索采用倒排索引,除非在特定情况下,否则正排索引实用性价值不大。

二、倒排索引

倒排索引(inverted index)是通过对doc某特定字段的具体值进行分词后,得到不少于1个的关键词,根据这些关键词建立索引,索引中记录了关键词所对应文档的ID、位置、次数等信息。

倒排索引中的"倒"指的是从doc field keys->doc id的映射过程。由于每个关键词对应的文档在动态变化,所以倒排索引的建立和维护都较为复杂,但是在查询的时候由于可以一次得到查询关键字对应的所有文档,所以效率很高。在全文检索中,检索的快速响应是一个最为关键的性能,而索引建立由于在后台进行,尽管效率相对低一些(比如Es文档插入后默认1s后才能搜到),但不会影响整个搜索引擎的效率。

关键词信息文档(ID)
my1,3
is1,2,3
tom1,2
hello1
you2
are2
bob3
he3
john3

在实际应用中,通常会将正排索引和倒排索引结合起来使用。首先使用倒排排索引对文档集进行初筛,找到包含查询关键字的文档;然后使用正排索引对文档进行排序等操作。

三、Q&A

  1. MySQL的 B+Tree索引是正排索引还是倒排索引?

首先声明本人观点,MySQL的 B+Tree索引既不符合正排索引定义也不符合倒排索引定义,没必要非要将其关联起来,不管是正排,倒排,还是B+Tree,都是提高查询效率的方法。非要关联的话,B+Tree索引具有正排和倒排的某些特性,聚簇索引偏向正排索引,非聚簇索引偏向倒排索引,聚簇索引通过主键组织文档数据,非聚簇索引是辅助提升查询效率的手段。主键类似文档ID,非聚簇索引字段值类似关键词。

  1. 正排索引有应用吗?

在Es中就有正排索引,被称为Doc Values,其将文档中每个字段的值采用列式结构存储,通常存储在磁盘中,查询是会被加载到内存中。主要用于存储和检索字段原始值,以便进行快速的聚合、排序和脚本操作,特别适用于数值、日期、布尔和不分词字符串的字段。

四、参考

1]:Lucene 正排索引、倒排索引
2]:ES倒排索引、正排索引
3]:Difference between Inverted Index and Forward Index
4]:Forward index
5]:Indexing for Beginners
6]:elasticsearch实战-doc values列式存储算法
7]:Es doc values正排索引

http://www.hkea.cn/news/728981/

相关文章:

  • 如何做线上赌博的网站推广策略有哪些方法
  • 男的女的做那个视频网站百度收录需要多久
  • 大通县wap网站建设公司网站免费制作
  • 哪个网站教做公众号甘肃百度推广电话
  • 网站怎么让百度收录广告网络推广
  • 小型网站设计及建设论文定制网站制作公司
  • 视频网站建设费用排名优化网站seo排名
  • 怎么自己做网站服务器linux百度账号查询
  • 梧州网站推广方案百度热搜 百度指数
  • 网站不兼容ie6自助建站模板
  • 甘肃网站建设公司百中搜优化软件
  • 国内外贸网站建设公司seo教程 百度网盘
  • 一物一码二维码生成系统最好用的系统优化软件
  • 如何在大网站做外链镇江网站建站
  • 杭州网站建设公司导航短视频营销案例
  • 昆明做网站建设有哪些长尾关键词排名工具
  • 一女被多男做的视频网站网站seo系统
  • 网站建设 青海网站建设找哪家好
  • win7 网站配置优化方案官网电子版
  • 广州seo优化公司排名浙江seo博客
  • 全网推广的方式有哪些抖音seo推荐算法
  • 网站开发开源架构抖音营销软件
  • 自己做的网站能放到网上么青岛seo经理
  • 营业推广策划方案邵阳网站seo
  • 手机网站横向切换kol合作推广
  • 专门做超市海报的网站宁波seo咨询
  • 仿网站上的焦点图在线看seo网站
  • 做网站的业务员艾滋病阻断药有哪些
  • web集团网站建设广告投放平台有哪些
  • 大连做网站建设广告资源对接平台