当前位置: 首页 > news >正文

检察院门户网站建设自查报告google在线网页代理

检察院门户网站建设自查报告,google在线网页代理,wordpress公司网站模版,宿州精品网站建设词频统计是自然语言处理的基本任务#xff0c;针对一段句子、一篇文章或一组文章#xff0c;统计文章中每个单词出现的次数#xff0c;在此基础上发现文章的主题词、热词。 1. 单句的词频统计 思路#xff1a;首先定义一个空字典my_dict#xff0c;然后遍历文章#xf…词频统计是自然语言处理的基本任务针对一段句子、一篇文章或一组文章统计文章中每个单词出现的次数在此基础上发现文章的主题词、热词。 1. 单句的词频统计 思路首先定义一个空字典my_dict然后遍历文章或句子针对每个单词判断是否在字典my_dict的key中不存在就将该单词当作my_dict的key并设置对应的value值为1若已存在则将对应的value值1。 #统计单句中每个单词出现的次数 news Xi, also general secretary of the Communist Party of China (CPC) Central Committee and chairman of the Central Military Commission, made the remarks while attending a voluntary tree-planting activity in the Chinese capitals southern district of Daxing. def couWord(news_list): ##定义计数函数 输入句子的单词列表 输出单词-次数 的字典my_dict {} #空字典 来保存单词出现的次数for v in news_list:if my_dict.get(v):my_dict[v] 1else:my_dict[v] 1return my_dictprint(couWord(news.split ()))输出 {‘Xi,’: 1, ‘also’: 1, ‘general’: 1, ‘secretary’: 1, ‘of’: 4, ‘the’: 4, ‘Communist’: 1, ‘Party’: 1, ‘China’: 1, ‘(CPC)’: 1, ‘Central’: 2, ‘Committee’: 1, ‘and’: 1, ‘chairman’: 1, ‘Military’: 1, ‘Commission,’: 1, ‘made’: 1, ‘remarks’: 1, ‘while’: 1, ‘attending’: 1, ‘a’: 1, ‘voluntary’: 1, ‘tree-planting’: 1, ‘activity’: 1, ‘in’: 1, ‘Chinese’: 1, “capital’s”: 1, ‘southern’: 1, ‘district’: 1, ‘Daxing.’: 1} 以上通过couWord方法实现了词频的统计但是存在以下两个问题。 1未去除stopword 输出结果中保护’also’、‘and’、in’等stopword停止词停止词语与文章主题关系不大需要在词频统计等各类处理中将其过滤掉。 2未根据出现次数进行排序 根据每个单词出现次数进行排序后可以直观而有效的发现文章主题词或热词。 改进后的couWord函数如下 def couWord(news_list,word_list,N):#输入 文章单词的列表 停止词列表 输出Top N的单词my_dict {} #空字典 来保存单词出现的次数for v in news_list:if (v not in word_list): # 判断是否在停止词列表中if my_dict.get(v):my_dict[v] 1else:my_dict[v] 1topWord sorted(zip(my_dict.values(),my_dict.keys()),reverseTrue)[:N] return topWord加载英文停止词列表 stopPath rData/stopword.txt with open(stopPath,encoding utf-8) as file:word_list file.read().split() #通过read()返回一个字符串函数再将其转换成列表 print(couWord(news.split(),word_list,5))输出 [(2, ‘Central’), (1, ‘voluntary’), (1, ‘tree-planting’), (1, ‘southern’), (1, ‘secretary’)] 2. 文章的词频统计 1单篇文章词频统计 通过定义读取文章的函数对其进行大小写转换等处理形成输入文章的单词列表。 def readFile(filePath): #输入 文件路径 输出字符串列表with open(filePath,encoding utf-8) as file:txt file.read().lower() #返回一个字符串,都是小写myTxt txt.split() #转换成列表 return myTxtfilePath rData/news/1.txt new_list readFile(filePath) #读取文件 print(couWord(new_list,word_list,5))输出 [(17, ‘rights’), (14, ‘human’), (8, ‘united’), (7, ‘china’), (6, ‘resolution’)] 2多篇文章词频统计 需要使用os.listdir方法读取文件夹下的文件列表然后对文件逐一进行处理。 import os folderPath rData/news #文件夹路径 tmpFile os.listdir(folderPath) allNews [] for file in tmpFile: #读取文件newsfile folderPath // file #拼接完整的文件路径 \\ 转义字符allNews readFile(newsfile) #把所有的字符串列表拼接到allText中print(couWord(allNews,word_list,5)) 输出 [(465, ‘china’), (323, ‘chinese’), (227, ‘xi’), (196, “china’s”), (134, ‘global’)] 3中文文章的处理 对于中文文章的词频统计首先要使用jieba等分词器对文章进行分词并且加载中文的停止词列表再进行词频统计。
http://www.hkea.cn/news/14523481/

相关文章:

  • 现在网站建设用什么软件800多块做网站
  • 有什么网站可以赚钱wordpress访客
  • 制作一个网站大概要多少钱个人如何做seo推广
  • 装修网站怎么做的网站建设实验报告总结
  • 山东营销网站建设设计广西百色公司注册
  • 帮人家做网站能赚多少钱第三方网站做企业满意度调查
  • 做网站设计公司价格重庆市建设工程信息网的信用信息发布平台
  • 电子商务网站建设前期准备品牌vi设计是什么
  • 网站建设代理平台有哪些不懂代码可以做网站吗
  • 网站建设公司做销售前景好不好?wordpress 新建
  • 云南网站制作公司教育类手机网站模板
  • 建设摩托车网站wordpress全局动态背景
  • 网页模板网站有哪些二级建造师求职网
  • 网站开发怎样将信息栏到最底部事业单位网站建设方案书
  • 温州网站建设方案开发网站建设开头
  • 无锡做网站需要多少钱全国建设工程招标信息网站
  • 主题网站界面设计长沙市教育局官网
  • 智能建网站南头手机公司网站建设
  • python 爬虫 做网站柳州电商网站建设
  • 网站开发工程师英文简历1万流量网站 服务器配置
  • 宣传网站建设意义华为企业解决方案
  • 专门做眼镜的网站珠宝网站设计
  • 北辰正方建设集团有限公司网站网站的二级网页关键词
  • 东莞百度搜索网站排名pc 响应式网站模板
  • 如何自建网站卖模具做哪个网站好
  • 深圳 建网站网站推广策略都有哪些
  • 百度里面的站长工具怎么取消域名升级
  • 网站蓝色和红色搭配asp.net 网站截图
  • 鞍山晟宇网站建设软件项目管理内容
  • wordpress网站基础知识建网站 必须学html吗