当前位置: 首页 > news >正文

织梦怎么做网站地图成品网站和模板建站

织梦怎么做网站地图,成品网站和模板建站,广州正规网站建设哪家好,山如何搭建响应式网站思路#xff1a; 进入电影天堂首页#xff0c;提取到主页面中的每一个电影的背后的那个urL地址 a. 拿到“2024必看热片”那一块的HTML代码 b. 从刚才拿到的HTML代码中提取到href的值访问子页面#xff0c;提取到电影的名称以及下载地址 a. 拿到子页面的页面源代码 b. 数据提…思路 进入电影天堂首页提取到主页面中的每一个电影的背后的那个urL地址 a. 拿到“2024必看热片”那一块的HTML代码 b. 从刚才拿到的HTML代码中提取到href的值访问子页面提取到电影的名称以及下载地址 a. 拿到子页面的页面源代码 b. 数据提取 代码实现 from tqdm import tqdm import requests import re from selenium import webdriver from selenium.webdriver.edge.options import Optionsclass MovieScraper:MovieScraper类用于从网站抓取电影信息。属性----------edge_options : Options用于配置webdriver的selenium Options对象web_driver : webdriver用于与网站交互的selenium webdriverrequest_headers : dict包含请求头的字典方法-------get_response(url)向指定的URL发送GET请求并返回响应。get_movie_list_html(response)从响应中提取电影列表的HTML。get_sub_url_list(movie_list_html)从电影列表HTML中提取子URL。get_movie_info(child_response)从子URL的响应中提取电影信息。scrape(target_url)从指定的URL抓取电影信息并写入文件。def __init__(self):初始化MovieScraper配置webdriver和请求头。self.edge_options Options()self.edge_options.add_argument(headless)self.web_driver webdriver.Edge(optionsself.edge_options)self.request_headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36}def get_response(self, url):向指定的URL发送GET请求并返回响应。参数----------url : str要发送请求的URL。返回-------response : ResponseGET请求的响应。response requests.get(url, headersself.request_headers)response.encoding gbkreturn responsedef get_movie_list_html(self, response):从响应中提取电影列表的HTML。参数----------response : Response要提取HTML的响应。返回-------movie_list_html : str电影列表的HTML。movie_list_pattern re.compile(r2024必看热片.*?ul(?Phtml.*?)/ul, re.S)movie_list_result movie_list_pattern.search(response.text)return movie_list_result.group(html)def get_sub_url_list(self, movie_list_html):从电影列表HTML中提取子URL。参数----------movie_list_html : str电影列表的HTML。返回-------sub_url_list : iterator子URL的迭代器。sub_url_pattern re.compile(rlia href(?Psub_url.*?), re.S)return sub_url_pattern.finditer(movie_list_html)def get_movie_info(self, child_response):从子URL的响应中提取电影信息。参数----------child_response : Response要提取电影信息的响应。返回-------movie_info_result : Match包含电影信息的匹配对象。movie_info_pattern re.compile(r◎片  名 (?Pmovie.*?)br.*?td styleWORD-WRAP: break-word bgcolor#fdfddfa href(?Pdownload.*?), re.S)return movie_info_pattern.search(child_response.text)def scrape(self, target_url):从指定的URL抓取电影信息并写入文件。参数----------target_url : str要抓取电影信息的URL。self.web_driver.get(target_url)response self.get_response(target_url)movie_list_html self.get_movie_list_html(response)sub_url_list self.get_sub_url_list(movie_list_html)with open(电影天堂.txt, w, encodingutf-8) as file:for sub_url in tqdm(sub_url_list, desc处理URL中, unitURL):child_url target_url sub_url.group(sub_url)child_response self.get_response(child_url)movie_info_result self.get_movie_info(child_response)download_link movie_info_result.group(download)file.write(download_link \n)self.web_driver.quit()print(爬取完毕)if __name__ __main__:scraper MovieScraper()scraper.scrape(https://www.dy2018.com/)效果
http://www.hkea.cn/news/14342170/

相关文章:

  • 网站开发付款方式和比例自助建站网
  • 如何创建网站内容在线排名优化工具
  • 崇明网站建设如何做网站里的子网站
  • 用国外服务器做网站网站搜资源的搜索引擎
  • 适合用struts2做的网站网络营销策略是什么
  • 做电影网站的资源从哪里换邢台做网站哪家便宜
  • php做网站速成软件开发一天收费多少
  • 广州好的做网站公司做贷款的网站有哪些
  • 网站收录提交入口网站建设要什么软件
  • 做网站商城需要什么条件低调赚大钱的灰色行业
  • 响应式网站有什么好处中文 wordpress插件下载
  • 品牌网站建设黑白H狼做靓号网站
  • 做本地分类信息网站赚钱吗国外产品展示网站源码
  • 优秀的图片设计网站推荐wordpress网站布局
  • 长春做个人网站做不了class wp wordpress
  • 法治建设网站模块阳澄湖大闸蟹网站建设
  • 免费网站建设一级深圳做网站排名哪家好
  • 怎么做网站端口代理帝国cms 网站名称
  • 网站建设内页徐州建设工程招标公示
  • 腾讯网qq网站做网站多少流量可以做广告
  • 零陵做网站国内主流网站开发技术
  • 做广告在哪个网站做效果人流最多适合手机的网站
  • 知道一个网站怎么知道是谁做的百度优化中软属于国企还是央企
  • 广东品牌网站建设平台wordpress qqworld
  • 专升本需要考些什么科目百度seo公司整站优化软件
  • 贵阳网站建设多少钱?开发网站用什么语言最好吗
  • 成立网站是不是需要先成立公司应届生招聘去哪个网站
  • 开源系统网站口碑好的秦皇岛网站建设哪家好
  • 网站建设与规划实验总结注册安全工程师考试科目
  • 浙江五联建设有限公司网站wordpress 建设中