当前位置: 首页 > news >正文

网站建设计划时间节点免费虚拟主机免备案

网站建设计划时间节点,免费虚拟主机免备案,网站建设上机课,青岛网站建设团队思路#xff1a; 1、发送请求#xff0c;解析html里面的数据 2、保存到csv文件 3、数据处理 4、数据可视化 需要用到的库#xff1a; import requests,csv #请求库和保存库 import pandas as pd #读取csv文件以及操作数据 from lxml import etree #解析html库 from …思路 1、发送请求解析html里面的数据 2、保存到csv文件 3、数据处理 4、数据可视化 需要用到的库 import requests,csv #请求库和保存库 import pandas as pd #读取csv文件以及操作数据 from lxml import etree #解析html库 from pyecharts.charts import * #可视化库 注意后续用到分词库jieba以及词频统计库nltk  环境 python  3.10.5版本 编辑器vscode -jupyter 使用ipynb文件的扩展名 vscode会提示安装jupyter插件 一、发送请求、获取html #请求的网址 urlhttps://ssr1.scrape.center/page/1#请求头 headers{User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36 }#发起请求获取文本数据 reponserequests.get(url,url,headersheaders) print(reponse)二、使用xpath提取html里面的数据并存到csv #创建csv文件 with open(电影数据.csv,modew,encodingutf-8,newline) as f:#创建csv对象csv_savecsv.writer(f)#创建标题csv_save.writerow([电影名,电影上映地,电影时长,上映时间,电影评分])for page in range(1,11): #传播关键1到10页的页数#请求的网址urlhttps://ssr1.scrape.center/page/{}.format(page)print(当前请求页数,page)#请求头headers{User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36}responserequests.get(url,url,headersheaders,verifyFalse)print(response)html_dataetree.HTML(response.text)#获取电影名titlehtml_data.xpath(//div[classp-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16]/a/h2/text())#获取电影制作地gbshtml_data.xpath(//div[classp-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16]/div[2]/span[1]/text())#获取电影时长timehtml_data.xpath(//div[classm-v-sm info]/span[3]/text())#获取电影上映时间move_timehtml_data.xpath(//div[classp-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16]/div[3]/span/text())#电影评分numderhtml_data.xpath(//p[classscore m-t-md m-b-n-sm]/text())for name,move_gbs,times,move_times,numders in zip(title,gbs,time,move_time,numder):print(电影名,name, 电影上映地址,move_gbs, 电影时长,times, 电影上映时间,move_times, 电影评分:,numders)#name,move_gbs,times,move_times,numders#写入csv文件csv_save.writerow([name,move_gbs,times,move_times,numders]) 效果 三、使用pandas打开爬取的csv文件 datapd.read_csv(电影数据.csv,encodingutf-8) print(data) 四、对电影名进行分词以及词频统计 注意使用jieba分词nltk分词   这里的停用此表可以自己创建一个  里面放无意义的字比如的、不是、不然这些 每个字独占一行即可 import jiebatitle_list[]for name in data[电影名]:#进行精准分词lcutjieba.lcut(name,cut_allFalse) # print(lcut)for i in lcut : # print(i)#去除无意义的词#打开停用词表文件file_pathopen(停用词表.txt,encodingutf-8)#将读取的数据赋值给stop_words变量stop_wordsfile_path.read()#遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面if i not in stop_words:title_list.append(i) # print(title_list)#计算词语出现的频率 from nltk import FreqDist #该模块提供了计算频率分布的功能#FreqDist对象将计算net_data中每个单词的出现频率,并将结果存储在freq_list中 freq_listFreqDist(title_list) print(freq_list) #结果FreqDist 有1321个样本和5767个结果 #该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。 most_common_wordsfreq_list.most_common() print(most_common_words) #结果(The这个词,出现185次) 效果 五、词云可视化 # 创建一个 WordCloud类词云 实例 word_cloud WordCloud() # 添加数据和词云大小范围 add(标题, 数据, word_size_range将出现频率最高的单词添加到词云图中并设置单词的大小范围为 20 到 100。) word_cloud.add(词云图, most_common_words, word_size_range[20, 100]) # 设置全局选项包括标题 word_cloud.set_global_opts(title_optsopts.TitleOpts(title电影数据词云图)) # 在 Jupyter Notebook 中渲染词云图 word_cloud.render_notebook()#也可以生成html文件观看 word_cloud.render(result.html) 运行效果 六、对电影时长进行统计并做柱形图可视化 #电影时长 去除分钟和,号这个 转为int 然后再转为列表 只提取20条数据总共100条 move_timedata[电影时长].apply(lambda x: x.replace(分钟, ).replace(,, )).astype(int).tolist()[0:20] # print(move_time)#电影名 只提取20条数据 move_namedata[电影名].tolist()[0:20] # print(move_name)#创建Bar实例 Bar_objBar()#添加x轴数据标题 Bar_obj.add_xaxis(move_name)#添加y轴数据 Bar_obj.add_yaxis(电影时长数据单位分钟,move_time)#设置标题 Bar_obj.set_global_opts(title_opts{text: 电影时长数据柱形图可视化})# 显示图表 Bar_obj.render_notebook()效果 七、电影时长折线图可视化 #去除分钟和,号这个 转为int 然后再转为列表 只提取25条数据 move_timedata[电影时长].apply(lambda x: x.replace(分钟, ).replace(,, )).astype(int).tolist()[0:25] # print(move_time)#电影名 只提取25条数据 move_namedata[电影名].tolist()[0:25] # print(move_name)#创建Bar实例 Bar_objLine()#添加x轴数据标题 Bar_obj.add_xaxis(move_name)#添加y轴数据 Bar_obj.add_yaxis(电影时长数据单位分钟,move_time)#设置标题 Bar_obj.set_global_opts(title_opts{text: 电影时长数据折线图可视化})# 显示图表 Bar_obj.render_notebook() 效果 八、统计每个国家电影上映的数量 import jiebatitle_list[]#遍历电影上映地这一列 for name in data[电影上映地]:#进行精准分词lcutjieba.lcut(name,cut_allFalse) # print(lcut)for i in lcut : # print(i)#去除无意义的词#打开停用词表文件file_pathopen(停用词表.txt,encodingutf-8)#将读取的数据赋值给stop_words变量stop_wordsfile_path.read()#遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面if i not in stop_words:title_list.append(i) # print(title_list)#计算词语出现的频率 from nltk import FreqDist #该模块提供了计算频率分布的功能#FreqDist对象将计算net_data中每个单词的出现频率,并将结果存储在freq_list中 freq_listFreqDist(title_list) print(freq_list) #结果FreqDist 有1321个样本和5767个结果 #该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。 most_common_wordsfreq_list.most_common() print(most_common_words) #结果(单人这个词,出现185次)#电影名 使用列表推导式来提取most_common_words中每个元素中的第一个元素即出现次数然后将它们存储在一个新的列表中 map_data_title [count[0] for count in most_common_words] print(map_data_title)#电影数 map_data[count[1] for count in most_common_words] print(map_data) 效果 九、对每个国家电影上映数量饼图可视化 #获取map_data_title的长度决定循环次数赋值给遍历i 在通过下标取值 result [[map_data_title[i], map_data[i]] for i in range(len(map_data_title))] print(result)# 创建Pie实例 chartPie()#添加标题和数据 radius[圆形空白处百分比,色块百分比大小] 可不写 chart.add(电影上映数饼图单位个,result,radius[50%,60%])#显示 chart.render_notebook() 效果 觉得有帮助的话点个赞
http://www.hkea.cn/news/14387458/

相关文章:

  • 网站商城建设视频教程台州宇洋台州网站建设
  • 任何用c语言做网站网站建设全屏
  • 做一个自己的网站多少钱昆明传媒网站建设
  • 网站强制字体wordpress门户网站源码
  • pycharm做网站响应适网站开发
  • 网站开发方向和移动开发方向那个好做薪酬调查有哪些网站
  • 用户后台网站别做网络推广员
  • 深圳中国电信网站备案一键网页转app生成器
  • 网站排名提升易下拉教程wordpress 导入插件
  • itc 做市场分析的网站工作计划及目标
  • 快递公司网站制作青岛做优化网站哪家好
  • 网站模板 哪个好搭建一个网站的具体步骤
  • 外贸平台做摩托车配件什么网站好平面设计职业规划
  • 网站开发的文献松江 网站建设公司
  • 东莞创意网站设计安卓应用开发工具
  • 机械类网站模板哪些平台可以发布软文
  • 网页设计的网站配色方案广告设计在线设计
  • 微信小程序外联网站wordpress多域名不稳定
  • 企业网站开发公司大全wordpress淘客采集
  • 临沂市住房和城乡建设厅网站华为软件开发流程
  • 网站怎么做微信推广徐州网站建设公司百家号
  • 上海有哪几家做新房的网站app和网站的成本区别
  • 怎么创立网站邯郸资讯
  • 建网站 免费wordpress建了个幻灯片怎么输出
  • 工程建设标准化期刊网站网站建设多少
  • 鹤壁做网站金空间网站
  • 制作网站的公司叫什么营销qq怎么申请
  • 58同城兰州网站建设网站建设的软硬件环境
  • 做游戏模型素材 网站成都工程网站建设
  • 可以使用ftp的网站国内的搜索引擎有哪些