当前位置: 首页 > news >正文

网站 aspx 模板广州网站建设公司品牌

网站 aspx 模板,广州网站建设公司品牌,wordpress存储远程附件,合肥网站seo优化排名1、什么是IK分词器 ElasticSearch 几种常用分词器如下#xff1a; 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字#xff0c;我们在搜索时候会把自己的信息进行分词#xff0c;会把数据库…1、什么是IK分词器 ElasticSearch 几种常用分词器如下 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字我们在搜索时候会把自己的信息进行分词会把数据库中或者索引库中的数据进行分词然后进行一个匹配操作默认的中文分词是将每个字看成一个词比如“我爱中国会被分为我“爱”“中”国”这显然是不符合要求的所以我们需要安装中文分词器ik来解决这个问题。 IK提供了两个分词算法ik_smart和ik_max_word其中ik smart为最少切分ik_max_word为最细粒度划分! ik_max_word: 会将文本做最细粒度的拆分比如会将中华人民共和国国歌拆分为中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌会穷尽各种可能的组合ik_smart: 会做最粗粒度的拆分比如会将中华人民共和国国歌拆分为中华人民共和国,国歌。 2、下载IK分词器 下载地址IK分词器 下载完毕之后在虚拟机进行部署 首先查看之前安装的Elasticsearch容器的plugins数据卷目录 docker volume inspect es-plugins 结果如下 [{CreatedAt: 2024-11-06T10:06:3408:00,Driver: local,Labels: null,Mountpoint: /var/lib/docker/volumes/es-plugins/_data,Name: es-plugins,Options: null,Scope: local} ] 可以看到elasticsearch的插件挂载到了/var/lib/docker/volumes/es-plugins/_data这个目录。我们需要把IK分词器上传至这个目录。 将刚刚下载的压缩包解压后就可以放入该地址的文件夹中 然后上传至虚拟机的/var/lib/docker/volumes/es-plugins/_data这个目录 最后重启es容器 docker restart es 3、使用IK分词器 IK分词器包含两种模式 ik_smart智能语义切分 ik_max_word最细粒度切分 我们在Kibana的DevTools上来测试分词器首先测试Elasticsearch官方提供的标准分词器 POST /_analyze {analyzer: standard,text: 黑马程序员学习java太棒了 } 结果如下 {tokens : [{token : 黑,start_offset : 0,end_offset : 1,type : IDEOGRAPHIC,position : 0},{token : 马,start_offset : 1,end_offset : 2,type : IDEOGRAPHIC,position : 1},{token : 程,start_offset : 2,end_offset : 3,type : IDEOGRAPHIC,position : 2},{token : 序,start_offset : 3,end_offset : 4,type : IDEOGRAPHIC,position : 3},{token : 员,start_offset : 4,end_offset : 5,type : IDEOGRAPHIC,position : 4},{token : 学,start_offset : 5,end_offset : 6,type : IDEOGRAPHIC,position : 5},{token : 习,start_offset : 6,end_offset : 7,type : IDEOGRAPHIC,position : 6},{token : java,start_offset : 7,end_offset : 11,type : ALPHANUM,position : 7},{token : 太,start_offset : 11,end_offset : 12,type : IDEOGRAPHIC,position : 8},{token : 棒,start_offset : 12,end_offset : 13,type : IDEOGRAPHIC,position : 9},{token : 了,start_offset : 13,end_offset : 14,type : IDEOGRAPHIC,position : 10}] }可以看到标准分词器智能1字1词条无法正确对中文做分词。 我们再测试IK分词器 POST /_analyze {analyzer: ik_smart,text: 黑马程序员学习java太棒了 } {tokens : [{token : 黑马,start_offset : 0,end_offset : 2,type : CN_WORD,position : 0},{token : 程序员,start_offset : 2,end_offset : 5,type : CN_WORD,position : 1},{token : 学习,start_offset : 5,end_offset : 7,type : CN_WORD,position : 2},{token : java,start_offset : 7,end_offset : 11,type : ENGLISH,position : 3},{token : 太棒了,start_offset : 11,end_offset : 14,type : CN_WORD,position : 4}] }3.1、拓展词典 随着互联网的发展“造词运动”也越发的频繁。出现了很多新的词语在原有的词汇列表中并不存在。比如“泰裤辣”“传智播客” 等。 IK分词器无法对这些词汇分词测试一下 POST /_analyze {analyzer: ik_max_word,text: 传智播客开设大学,真的泰裤辣 } 结果 {tokens : [{token : 传,start_offset : 0,end_offset : 1,type : CN_CHAR,position : 0},{token : 智,start_offset : 1,end_offset : 2,type : CN_CHAR,position : 1},{token : 播,start_offset : 2,end_offset : 3,type : CN_CHAR,position : 2},{token : 客,start_offset : 3,end_offset : 4,type : CN_CHAR,position : 3},{token : 开设,start_offset : 4,end_offset : 6,type : CN_WORD,position : 4},{token : 大学,start_offset : 6,end_offset : 8,type : CN_WORD,position : 5},{token : 真的,start_offset : 9,end_offset : 11,type : CN_WORD,position : 6},{token : 泰,start_offset : 11,end_offset : 12,type : CN_CHAR,position : 7},{token : 裤,start_offset : 12,end_offset : 13,type : CN_CHAR,position : 8},{token : 辣,start_offset : 13,end_offset : 14,type : CN_CHAR,position : 9}] }可以看到传智播客和泰裤辣都无法正确分词。 所以要想正确分词IK分词器的词库也需要不断的更新IK分词器提供了扩展词汇的功能。 1打开IK分词器config目录 注意如果采用在线安装的通过默认是没有config目录的需要把课前资料提供的ik下的config上传至对应目录。 2在IKAnalyzer.cfg.xml配置文件内容添加 ?xml version1.0 encodingUTF-8? !DOCTYPE properties SYSTEM http://java.sun.com/dtd/properties.dtd propertiescommentIK Analyzer 扩展配置/comment!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--entry keyext_dictext.dic/entry /properties 3在IK分词器的config目录新建一个 ext.dic可以参考config目录下复制一个配置文件进行修改 传智播客 泰裤辣 4重启elasticsearch docker restart es # 查看 日志 docker logs -f elasticsearch 再次测试可以发现传智播客和泰裤辣都正确分词了 {tokens : [{token : 传智播客,start_offset : 0,end_offset : 4,type : CN_WORD,position : 0},{token : 开设,start_offset : 4,end_offset : 6,type : CN_WORD,position : 1},{token : 大学,start_offset : 6,end_offset : 8,type : CN_WORD,position : 2},{token : 真的,start_offset : 9,end_offset : 11,type : CN_WORD,position : 3},{token : 泰裤辣,start_offset : 11,end_offset : 14,type : CN_WORD,position : 4}] } 4、总结 分词器的作用是什么 创建倒排索引时对文档分词 用户搜索时对输入的内容分词 IK分词器有几种模式 ik_smart智能切分粗粒度 ik_max_word最细切分细粒度 IK分词器如何拓展词条如何停用词条 利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典 在词典中添加拓展词条或者停用词条
http://www.hkea.cn/news/14454166/

相关文章:

  • 做网站需要了解什么软件wordpress 不同面包屑
  • 长沙网站建设260e电信网站备案查询系统
  • 书店网站建设技术风险线上购物网站建设的可行性
  • 安徽建设局网站店面设计餐饮风格
  • 网站后台编辑器营销推广活动策划书模板
  • 我的世界做弊端网站网站建设报道稿
  • 绥化建设局网站wordpress建站是什么
  • 网站建设及推广预算表黄石网站建设哪家好
  • 效果图网站哪个好一个网站的建设要经过哪几个阶段
  • 如何建立一个手机网站wordpress 单栏模板下载
  • 福州网站开发培训免费p站推广网站入口
  • 做网站的公司哪里好怎么推广网址
  • 网站可以做多少个网页静态旅游网站
  • 国外 素材 网站网络推广的方法和途径
  • 内网建设网站外网访问网站开发现状都用php
  • 云顶科技做网站的wms智能仓储管理系统
  • 网站建设文案详情深圳品牌策划与设计
  • 网站备案是否关闭网站开发的运行可行性
  • 济南建设网官方网站具体c2c网站建设实例
  • 备案 几个网站你眼中的网络营销是什么
  • 彩票娱乐网站建设开发南充市房地产网官网
  • 精品课程网站建设摘要网站死链怎么办
  • 通辽市工程建设网站照片视频制作软件app
  • 铁岭网站开发公司京东app官网下载
  • 西安网站制作公司哪如何做平台网站
  • 毕业设计做系统好还是网站好中国建设银行网上银行
  • qq赞网站推广免费2019广东省工程建设网站
  • 专门做牛肉的网站礼品行业网站建设
  • 网站搭建响应式百度搜索引擎优化的方法
  • 模板建站与仿站哪个更好青海网站建设价格低