当前位置: 首页 > news >正文

个人网站 不用备案wordpress 样式表

个人网站 不用备案,wordpress 样式表,网站策划案,asp网站建设与设计文章目录 需求爬取星巴克产品以及图片#xff0c;星巴克菜单 python爬虫爬取结果 需求 爬取星巴克产品以及图片#xff0c;星巴克菜单 网页分析#xff1a; 首先#xff0c;需要分析星巴克官方网站的结构#xff0c;了解菜单栏的位置、布局以及菜单项的标签或类名等信息… 文章目录 需求爬取星巴克产品以及图片星巴克菜单 python爬虫爬取结果 需求 爬取星巴克产品以及图片星巴克菜单 网页分析 首先需要分析星巴克官方网站的结构了解菜单栏的位置、布局以及菜单项的标签或类名等信息。发送 HTTP 请求 使用 Python 的 requests 模块发送 HTTP GET 请求获取星巴克网页的 HTML 内容。解析 HTML 使用一个 HTML 解析库如 BeautifulSoup解析网页的 HTML 内容以便从中提取出菜单栏的数据。定位菜单栏元素 使用解析库的选择器功能如 CSS 选择器或 XPath定位菜单栏所在的 HTML 元素。提取菜单数据 从菜单栏元素中提取菜单项的信息可能包括菜单项名称、图片等。数据存储 将提取的菜单数据存储到适合的数据结构中。 python爬虫 获取网页源码这里没有反爬手段不需要添加其他参数 import urllib from bs4 import BeautifulSoup import requestsbase_url https://www.starbucks.com.cn/menu/ response urllib.request.urlopen(base_url) content response.read().decode(utf-8)soup BeautifulSoup(content, lxml)方法一soup的select方法 # 方法一select方法 import os# 文件保存路径 save_path ./practice_071_星巴克/ if not os.path.exists(save_path): os.makedirs(save_path)name_list soup.select(ul[classgrid padded-3 product]) # name_list[0].select(li div)[0][style] for name in name_list:submenu_pic name.select(li div)submenu_name name.select(li strong)for pic_url,name in zip(submenu_pic, submenu_name):suffix pic_url[style].split(()[-1].split())[0]# 文件地址 和 名称picture_url https://www.starbucks.com.cn suffixpicture_name name.get_text() .jpg# 文件不支持名称中含有字符 /, picture_name picture_name.strip().replace(/, or)# 方法1urlretrieve# urllib.request.urlretrieve(urlpicture_url, filenameos.path.join(save_path,picture_name))# 方法2写入文件形式src_response urllib.request.urlopen(picture_url)pic_content src_response.read()with open(os.path.join(save_path,picture_name), wb) as fp:fp.write(pic_content)print({} 完成地址为 {}.format(picture_name, picture_url)) 方法二soup的find\find_all方法 # 方法二find/find_all方法 menu_list soup.find(div, class_wrapper fluid margin page-menu-list).find_all(li)for name in menu_list:suffix name.find(div)[style].split(()[-1].split())[0]# 文件地址 和 名称picture_url https://www.starbucks.com.cn suffixpicture_name name.find(strong).get_text() .jpg# 文件不支持名称中含有字符 /, picture_name picture_name.strip().replace(/, or)urllib.request.urlretrieve(urlpicture_url, filenameos.path.join(save_path,picture_name))print({} 完成地址为 {}.format(picture_name, picture_url))爬取结果
http://www.hkea.cn/news/14500318/

相关文章:

  • 百度搜索 网站介绍广播电视网站建设
  • 惠州哪家做网站比较好福田网站优化
  • wordpress 多网站免费的seo
  • 网站服务器名字百度站长工具查询
  • 美美淘-专做女鞋拿货选款网站口碑营销的特征
  • 查看别人网站的访问量上海响应式网站制作公司
  • 精美静态网站源码html5 网站模板
  • 企业宣传网站在哪里做织梦视频网站模板
  • 我想网上做网站怎样在国外网站做推广
  • 凡科网站做网站多少钱不做百度推广网站关键词被屏蔽
  • 优化网站最好的刷排名软件wordpress 微博相册
  • 网站ico制作长沙网站制作作
  • 湖北建设网站四库一平台google浏览器入口
  • 网站建设的制度建设利搜网站排名软件
  • 盐城哪有做网站建设的陕西省建设厅网站劳保统筹基金
  • 丹灶网站建设案例青岛网站建设公司正
  • 哈尔滨企业建站网站开发怎么提高网站seo优化关键字排名
  • 刚做的公司网站搜不到破解wordpress加密文章
  • 网站开发的背景是指什么微信公众号的h5网站开发
  • 长春网站建设翻译网站登录系统内部错误
  • 彩票网站开发制作软件网站费用单
  • 做一个营销型网站有哪些内容同德县网站建设公司
  • 用自己电脑做网站包装设计公司名字
  • 如何拉下对手网站惠州公司网站建设
  • 网站更新了文章看不到凌云县城乡建设局网站
  • 集团网站定制seo是什么车
  • 万网主机怎么上传网站动漫制作
  • 网站建设最高管理权限张雪峰软件工程的前景
  • 一站式服务理念wordpress的统计代码
  • html5 手机网站开发叫才如何建做校园购物网站