漯河网站制作,简历免费制作,saas系统是什么意思,企业网站建设一条龙服务内容拓展阅读
搜索引擎-01-概览
搜索引擎-02-分词与全文索引
搜索引擎-03-搜索引擎原理
Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介
Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容
Crawl WebMagic 爬虫入门使用简介 webmagic
全网搜索引擎架构与流程如何…拓展阅读
搜索引擎-01-概览
搜索引擎-02-分词与全文索引
搜索引擎-03-搜索引擎原理
Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介
Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容
Crawl WebMagic 爬虫入门使用简介 webmagic
全网搜索引擎架构与流程如何
全网搜索引擎的宏观架构如上图核心子系统主要分为三部分粉色部分
1spider 爬虫系统
2searchindex: 建立索引与查询索引系统这个系统又主要分为两部分
一部分用于生成索引数据 build_index
一部分用于查询索引数据 search_index
3rank 打分排序系统
核心数据主要分为两部分紫色部分
1web 网页库
2index 索引数据
全网搜索引擎的业务特点决定了这是一个“写入”和“检索”分离的系统
如何写入
系统组成由spider与searchindex;两个系统完成。
输入站长们生成的互联网网页。
输出正排倒排索引数据。
流程如架构图中的1234
1spider把互联网网页抓过来
2spider把互联网网页存储到网页库中这个对存储的要求很高要存储几乎整个“万维网”的镜像
3build_index从网页库中读取数据完成分词
4build_index生成倒排索引
如何建立索引
系统组成由searchindex;与rank两个系统完成。
输入用户的搜索词。
输出排好序的第一页检索结果。
流程如架构图中的abcd
asearch_index获得用户的搜索词完成分词
bsearch_index查询倒排索引获得“字符匹配”网页这是初筛的结果
crank对初筛的结果进行打分排序
drank对排序后的第一页结果返回