基金管理公司司网站建设要求,免费网站后台管理系统,服装图案素材网站,简单的网页制作软件搜索引擎架构
整个搜索引擎分为三个系统 爬虫系统 索引系统 线上搜素服务 爬虫系统
爬虫分为两个阶段#xff1a; 第一阶段#xff1a;根据目标网站的列表页#xff0c;爬对应的文档 URL 第二阶段#xff1a;根据文档 URL#xff0c;下载文档内容 触发器#xff1…搜索引擎架构
整个搜索引擎分为三个系统 爬虫系统 索引系统 线上搜素服务 爬虫系统
爬虫分为两个阶段 第一阶段根据目标网站的列表页爬对应的文档 URL 第二阶段根据文档 URL下载文档内容 触发器 定时任务触发 消息触发 管理后台手动触发某一个爬虫任务
文件服务器 存储图片和视频文件 索引系统
索引系统主要数据依赖内容库和文件服务
依赖服务 分词服务 NLP 服务 同义词扩展 生成文档摘要 抽取文档标签 图片、文本、视频生成向量 .... PageRank 服务 在线搜索服务
在线服务的主要模块 Query 理解 召回 排序
当欠召回时 在线服务会将当前 Query 发送给离线索引系统的消息队列让其为该 Query 完善索引数据。 索引系统收到消息后会使用第三方搜索引擎进行检索并且将检索的内容解析出 URL发给爬虫系统进行数据的补充。 如果第三方搜索引擎也没有检索到数据可以通过 LLM 进行生成内容将生成的内容写入 ES 索引