当前位置: 首页 > news >正文

游戏公司做网站设计赚钱吗唐山百度seo公司

游戏公司做网站设计赚钱吗,唐山百度seo公司,免费永久个人云服务器,上孩做网站目录 1 词袋模型基本概念 2 词袋模型的表示方法 2.1 三大方法 1 独热表示法(One-Hot) 2 词频表示法(Term Frequency, TF) 3 词频-逆文档频率表示法(TF-IDF) 2.2 例子 1 词袋模型基本概念 词袋模型&a…

目录

1 词袋模型基本概念

2 词袋模型的表示方法

2.1 三大方法

1 独热表示法(One-Hot)

2 词频表示法(Term Frequency, TF)

3 词频-逆文档频率表示法(TF-IDF)

2.2 例子


1 词袋模型基本概念

词袋模型Bow,Bag of Words不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重(与词在文本中出现的频率有关),类似于将所有词语装进一个袋子里,其中每个词的出现都是独立的,不依赖于其他词是否出现。这种模型的主要目的是将文本转换为一个向量,其中向量的每个维度代表一个词,而该维度的值则表示该词在文本中出现的频率。

词袋模型的主要特征是:每个词的出现都是独立的,相当于每次随机试验为随机从词表中抽取一个单词,进行n次独立重复试验,因此适合使用多项式朴素贝叶斯

2 词袋模型的表示方法

2.1 三大方法

1 独热表示法(One-Hot)

One-Hot表示法的数值计算规则为:词语序列中出现的词语的数值为1,词语序列中未出现的词语的数值为0。其数学表达式为:

2 词频表示法(Term Frequency, TF)

TF表示法的数值计算规则为:词语序列中出现的词语的数值为该词语在所在文本中的频次,词语序列中未出现的词语的数值为0。其数学表达式为:

其中,t_{j}表示词语jcount(t_{j})表示词语j在所在文本出现的次数。

3 词频-逆文档频率表示法(TF-IDF)

TF-IDF的核心思想是:

  • 如果某个词语在文本中频繁出现,则认为该词语很重要
  • 如果某个词语在文本中频繁出现,但该词语在每篇文档都出现,则认为该词语不是特别重要,比如“的”字每篇文章都出现,但是重要性不大

TF-IDF表示法的数值计算规则为:词语序列中出现的词语的数值为词语在所在文本中的频次乘以词语的逆文档频率,词语序列中未出现的词语的数值为0。其数学表达式为:

其中,t_{j}表示词语jcount(t_{j})表示词语j在所在文本出现的次数。

idf(t_{j})的计算公式为:

当分母越大,idf(t_{j})越小,则说明其越不重要,为了防止分母为0,对idf(t_{j})进行改进,如下:

2.2 例子

已知有下边的几篇英文文本,请分别用词袋模型的三种方法来向量化表示每篇文本。

文档ID文档词列表
1Chinese Beijing Chinese
2Chinese Chinese Shanghai
3Chinese Macao
4Tokyo Japan Chinese

第一步:构建词袋

第二步:对于每一篇文本,计算词袋中各词语的数值,得到该篇文本的向量

One-Hot表示法

根据上述公式可得:

BeijingChineseJapanMacaoShanghaiTokyo
Chinese Beijing Chinese110000
Chinese Chinese Shanghai010010
Chinese Macao010100
Tokyo Japan Chinese011001

词频表示法

根据上述公式可得:

BeijingChineseJapanMacaoShanghaiTokyo
Chinese Beijing Chinese120000
Chinese Chinese Shanghai020010
Chinese Macao010100
Tokyo Japan Chinese011001

TF-IDF表示法

使用改进后的idf(t_{j}),如下:

计算过程如下:

idf(Beijing)=1+ln\frac{4+1}{1+1}\approx 1.916 ~~idf(Chinese)=1+ln\frac{4+1}{4+1}= 1

idf(Japan)=1+ln\frac{4+1}{1+1}\approx 1.916 ~~idf(Macao)=1+ln\frac{4+1}{1+1}\approx 1.916

idf(Shanghai)=1+ln\frac{4+1}{1+1}\approx 1.916 ~~idf(Tokyo)=1+ln\frac{4+1}{1+1}\approx 1.916

因此有:

BeijingChineseJapanMacaoShanghaiTokyo
Chinese Beijing Chinese1*1.916=1.9162*1=20000
Chinese Chinese Shanghai02*1=2001*1.916=1.9160
Chinese Macao01*1=101*1.916=1.91600
Tokyo Japan Chinese01*1=11*1.916=1.916001*1.916=1.916
http://www.hkea.cn/news/648100/

相关文章:

  • 深圳专业企业网站建设前端培训
  • 南京平台公司seo搜索培训
  • 横沥网站建设武汉百度百科
  • 百度给做网站公司线上运营的5个步骤
  • 盘锦网站建设公司网络营销策略包括哪些
  • 简述电子商务网站开发的基本原则一站式网络营销
  • 商丘网站网络推广员的工作内容和步骤
  • 取消wordpress邮箱认证北京搜索优化排名公司
  • 千库网素材南宁seo优势
  • 西安机场商务宾馆百度做网站怎么在百度上做网站
  • ps网站建设seo网络公司
  • 网站建设步骤 教 程网站怎么做谷歌推广
  • 网站制作需要注意什么潍坊做网站哪家好
  • 专门做团购的网站有哪些色盲图
  • 百度做网站续费费用百度营业执照怎么办理
  • 深圳网站建设方维网络企业网站制作要求
  • 制作好网站黑帽seo教程
  • 云南 网站建设网站seo优化对网店的推广的作用为
  • 网站建设免费国外舆情服务公司
  • 怎么做网站banner查排名网站
  • 做网站好看的背景图片相关搜索优化软件
  • 怎么查网站是哪家制作公司做的百度收录查询
  • 企业年金交了有好处吗网络优化工程师吃香吗
  • python做网站开发百度6大核心部门
  • 自己做网站平台企业网站优化价格
  • 淘宝网网站建设的需求分析百度会员登录入口
  • 建网站的专业公司推广网站多少钱
  • 网站不去公安局备案自己怎么搭建网站
  • 外贸网站建设入门深圳网络推广哪家
  • 网站模板资源公司网站推广