上海网站开发技术最好公司,创作图片的软件,廊坊seo排名霸屏,建立网站 数据分析必做题#xff1a; 数据准备#xff1a;academy_titles.txt为“考硕考博”板块的帖子标题#xff0c;job_titles.txt为“招聘信息”板块的帖子标题#xff0c;使用jieba工具对academy_titles.txt进行分词#xff0c;接着去除停用词#xff0c;然后统计词频#xff0c;最… 必做题 数据准备academy_titles.txt为“考硕考博”板块的帖子标题job_titles.txt为“招聘信息”板块的帖子标题使用jieba工具对academy_titles.txt进行分词接着去除停用词然后统计词频最后绘制词云。同样的也绘制job_titles.txt的词云。将jieba替换为pkuseg工具分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。 效果图 代码 import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt# 读取academy_titles文件内容
with open(C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt, r, encodingutf-8) as file:academy_titles file.readlines()# 读取job_titles文件内容
with open(C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt, r, encodingutf-8) as file:job_titles file.readlines()# 将招聘信息与学术信息分开
academy_titles [title.strip() for title in academy_titles]
job_titles [title.strip() for title in job_titles]# 分词、去除停用词、统计词频对academy_titles
academy_words []
for title in academy_titles:words jieba.cut(title)filtered_words [word for word in words if re.match(r^[\u4e00-\u9fa5]$, word)]academy_words.extend(filtered_words) 请自行补全代码或者这周五晚上更新完整代码