当前位置: 首页 > news >正文

宁波网站模板哪家性价比高兖州城乡建设局网站

宁波网站模板哪家性价比高,兖州城乡建设局网站,阿里云域名注册万网,wordpress 中文插件大全朴素贝叶斯广泛地应用在文本分类任务中#xff0c;其中最为经典的场景为垃圾文本分类(如垃圾邮件分类:给定一个邮件#xff0c;把它自动分类为垃圾或者正常邮件)。这个任务本身是属于文本分析任务#xff0c;因为对应的数据均为文本类型#xff0c;所以对于此类任务我们首先…朴素贝叶斯广泛地应用在文本分类任务中其中最为经典的场景为垃圾文本分类(如垃圾邮件分类:给定一个邮件把它自动分类为垃圾或者正常邮件)。这个任务本身是属于文本分析任务因为对应的数据均为文本类型所以对于此类任务我们首先需要把文本转换成向量的形式然后再带入到模型当中。  import pandas as pd import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt # 读取spam.csv文件 df pd.read_csv(/home/anaconda/data/Z_NLP/spam.csv, encodinglatin) df.head() # 重命名数据中的v1和v2列,使得拥有更好的可读性 df.rename(columns{v1:Label, v2:Text}, inplaceTrue) df.head() # 把ham和spam标签重新命名为数字0和1 df[numLabel] df[Label].map({ham:0, spam:1}) df.head() # 统计有多少个ham,有多少个spam print (# of ham : , len(df[df.numLabel 0]), # of spam: , len(df[df.numLabel 1])) print (# of total samples: , len(df)) # 统计文本的长度信息,并画出一个histogram text_lengths [len(df.loc[i,Text]) for i in range(len(df))] plt.hist(text_lengths, 100, facecolorblue, alpha0.5) plt.xlim([0,200]) plt.show() # 导入英文的停用词库 from sklearn.feature_extraction.text import CountVectorizer # 构建文本的向量 (基于词频的表示) vectorizer CountVectorizer() X vectorizer.fit_transform(df.Text) y df.numLabel # 把数据分成训练数据和测试数据 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.20, random_state100) print (训练数据中的样本个数: , X_train.shape[0], 测试数据中的样本个数: , X_test.shape[0]) # 利用朴素贝叶斯做训练 from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score clf MultinomialNB(alpha1.0, fit_priorTrue) clf.fit(X_train, y_train) y_pred clf.predict(X_test) print(accuracy on test data: , accuracy_score(y_test, y_pred)) # 打印混淆矩阵 from sklearn.metrics import confusion_matrix confusion_matrix(y_test, y_pred, labels[0, 1])例题垃圾邮件的分类 总体来讲朴素贝叶斯分为两个阶段:  计算每个单词在不同分类中所出现的概率这个概率是基于语料库(训练数据)来获得的。利用已经计算好的概率再结合贝叶斯定理就可以算出对于一个新的文本它属于某一个类别的概率值并通过这个结果做最后的分类决策。 先验 贝叶斯定理  平滑操作---防止也有概率是0但是贝叶斯乘积永远是0加1平滑 另外在上述过程中可以看到分子的计算过程涉及到了很多概率的乘积一旦遇到这种情形就要知道可能会有潜在的风险。比如其中一个概率值等于0那不管其他概率值是多少最后的结果一定为0有点类似于“功亏一篑“的情况明明出现了很多垃圾邮件相关的单词就是因为其中的一个概率0最后判定为属于垃圾邮件的概率为0这显然是不合理的。为了处理这种情况有一个关键性操作叫作平滑(smoothing)其中最为常见的平滑方法为加一平滑(add-one smoothing)。 例题完整的例子 分子加1分母加词库的数量 朴素贝叶斯的最大似然估计  生成模型和判别模型  生成模型是记住所有的特点所以接下来可以生成新的图片 而判别模型只记得他们之间的区别所以不能用来生成只能用来区分  判别模型的初衷是用来解决判别问题而且只做一件事情(不像生成模型即可以解决分类问题也可以解决生成数据的问题)所以在分类问题上它的效果通常要优于生成模型的。接下来试着从另外一个角度来理解它俩之间的区别。
http://www.hkea.cn/news/14264043/

相关文章:

  • 云南省建设厅网站网站建设用到什么软件
  • 国外好用的网站厦门专业做优化的公司
  • 网站建设好不好学古侯子 wordpress
  • 什么类型网站可以发外链的网站或平台有哪些
  • 做网站上传的图片显示变形网站建设专业介绍
  • 西安 网站空间网站换域名了怎么办seo
  • 怎么建设一个网站wordpress卢松松主题
  • 启迪网站建设域名注册服务网站哪个好
  • php网站标题修改集团网站改版方案
  • 苏州建网站的公司一站式服务外贸网站模板推荐
  • 的广州建网站的公司网站建设dw 什么软件
  • 如何写网站代码是什么原因网站水军怎么做
  • 这个网站中有网名做会计的吗 了解一下毕业设计做啥网站好
  • 怎样制作表白网站wordpress调用昵称
  • 周口seo优化网站文章优化技巧
  • 网站建设小程序公众号推广开发网站开发的结构图
  • 外链提交网站网站建设理论基础
  • 网站建设团队介绍制作app免费网站模板下载
  • 池州哪里做网站计算机软件开发网站建设取什么名字
  • 销售推广做那个网站做网站建
  • 吉安网站建设jajjjc搜索引擎优化自然排名的区别
  • wordpress自动排版的编辑器宁波外包seo服务
  • 技术支持东莞网站建设可以免费发布信息的网站有哪些
  • 做宣传的视频网站有哪些微信公众号如何开通
  • 广州做网络服装的网站建设wordpress永久免费
  • 一个空间能放几个网站云南网站开发报价
  • 深喉咙企业网站帮助备案网站名称大全
  • 凡客包包seo谷歌推广
  • 中国建设银行官方网站登录手机永久免费建站
  • 校园网站建设考核网站挖掘工具