当前位置: 首页 > news >正文

全网网站建设北京优化公司司

全网网站建设,北京优化公司司,wordpress 更改自带域名,微商城网站开发视频前言 是谁#xff0c;是谁在网页上搜索往年考试卷题答案的时候只能阅读前两页的选择题#xff0c;是谁在搜几千字的文档资料只能看25%#xff0c;是谁在百度文库找七找八的时候所有的东西都要付费才能继续看… 我先说 是我自己 我又不经常用#xff0c;只有偶尔需要看看…前言 是谁是谁在网页上搜索往年考试卷题答案的时候只能阅读前两页的选择题是谁在搜几千字的文档资料只能看25%是谁在百度文库找七找八的时候所有的东西都要付费才能继续看… 我先说 是我自己 我又不经常用只有偶尔需要看看还要我掏钱包我说不行绝对不行 什么都行 谈钱不行 咱没钱咱有技术直接让python帮我 今天就来分享下 用Python实现某du文库vip内容下载, 保存到word文档 前期准备 环境使用 python 3.8pycharm 模块使用 requests 数据请求模块 pip install requestsdocx 文档保存 pip install python-docxre 内置模块 不需要安装ctrl R 爬虫: 首先你得看得数据, 才能想办法获取 代码实现步骤 发送请求, 模拟浏览器对于url地址发送请求图片数据包: 获取数据, 获取服务器返回响应数据 开发者工具: response 解析数据, 提取图片链接地址 保存数据, 把图片内容保存到本地文件夹 做文字识别, 识别文字内容 把文字数据信息, 保存word文档里面 导入数据请求模块 import requests 导入格式化输出模块 from pprint import pprint 导入base64 import base64 导入os模块 import os 导入文档模块 from docx import Document 导入正则 import re 导入 json import json 1. 发送请求, 模拟浏览器对于url地址发送请求 长链接, 可以分段写问号前面: url链接问号后面: 请求参数/查询参数 源码.点击.领取.即可 # 确定请求链接 url https://*****.com/gsearch/rec/pcviewdocrec# 请求参数data {docId: docId,query: name,recPositions: }# 请求头headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36}#发送请求response requests.get(urlurl, paramsdata, headersheaders)# Response [200] 响应对象, 200 表示请求成功print(response)2. 获取数据, 获取服务器返回响应数据 开发者工具: response sponse.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式 花括号 {} esponse.text 获取响应文本数据, 返回字符串 任何时候都可以, 但是基本获取网页源代码的时候 response.content 获取响应二进制数据, 返回字节 保存图片/音频/视频/特定格式文件print(response.json()) 打印字典数据, 呈现一行 pprint(response.json()) 打印字典数据, 呈现多行, 展开效果3. 解析数据, 提取图片链接地址 字典取值: 键值对 根据冒号左边内容[键], 提取冒号右边的内容[值] # 定义文件名 整型 num 1 # for循环遍历, 把列表里面元素一个一个提取出来 for index in response.json()[data][relateDoc]:# index 字典呀pic index[pic]print(pic)4. 保存数据 发送请求 获取数据 二进制数据内容 # img_content requests.get(urlpic, headersheaders).content # # img\\文件夹名字 str(num)文件名 .jpg文件后缀 modewb 保存方式, 二进制保存 # # str(num) 强制转换成 字符串 # # 图片\\ 相对路径, 相对于你代码的路径 你代码在那个地方, 那个代码所在地方图片文件夹 # with open(图片\\ str(num) .jpg, modewb) as f: # # 写入数据 保存数据 把图片二进制数据保存 # f.write(img_content) # # 每次循环 1 # print(num) # num 15. 做文字识别, 识别文字内容 文字识别: 注册一个百度云API账号创建应用 并且去免费领取资源在技术文档里面 Access Token获取调用API接口做文字识别 python学习交流Q群690643772 ### 源码领取 def get_content(file):# client_id 为官网获取的AK client_secret 为官网获取的SKhost https://*****compresponse requests.get(host)access_token response.json()[access_token]通用文字识别高精度版request_url https://********.com/rest/2.0/ocr/v1/accurate_basic# 二进制方式打开图片文件f open(file, rb)img base64.b64encode(f.read())params {image:img}request_url request_url ?access_token access_tokenheaders {content-type: application/x-www-form-urlencoded}json_data requests.post(request_url, dataparams, headersheaders).json()# 列表推导式words \n.join([i[words] for i in json_data[words_result]])return words读取文件夹里面所有图片内容 content_list [] files os.listdir(img\\) for file in files: filename img\\ file words get_content(filefilename) print(words) content_list.append(words)6. 把文字数据信息, 保存word文档里面 保存word文档里面 doc Document()添加第一段文档内容 content \n.join(content_list) doc.add_paragraph(content) doc.save(data.docx)最后 今天的分享到这里就结束了 有问题的宝子可以评论区留言或者点击末尾名片进行交流学习哦
http://www.hkea.cn/news/14421949/

相关文章:

  • 江西网站制作的公司哪家好家在深圳光明业主论坛
  • 完整源码网站 seo 如何使用
  • 手机网站制作移动高端网站建设广西建设工程质量检测协会网站
  • 网站相互推广怎么做网站建设与管理习题一
  • 站长百科 wordpress最好最值得做的调查网站
  • 建设网站的服务费是指什么休闲会所网站建设
  • 南宁哪有网站建设公司wordpress瀑布流js
  • copyright 个人网站福州模板做网站
  • 浙江省工程建设协会网站设计灵感网站整理
  • 网站建设:博采网络seo网站营销公司哪家好
  • 建网站的要求外贸公司英文
  • 上海在线网站做艺术网站素材
  • 济南网站建设推荐企优互联不错品牌策划的五个步骤
  • 沧州礼品行业网站设计西宁网站建设哪家好
  • 北京 集团公司网站建设徐州飞虹网架公司
  • 网站更换服务器需要重新备案吗太原网站快速排名优化
  • 宝塔windows建设网站wordpress速度慢设置
  • 丹徒网站建设咨询有用模板网在线制作免费网站
  • 潍坊网站定制模板建站局域网做网站
  • 佛山顺德容桂做网站的公司在线公司取名
  • 网站源码交易平台代码wordpress 杂志模板下载
  • 做军事网站的项目背景图片如何制作假网页
  • 网站演示程序旅游电子商务平台有哪些
  • 哪里有做网站服务商定制网站的好处有哪些
  • 无锡做网站微信crm
  • 旅游 网站建设目标课程网站建设 碧辉腾乐
  • 做html的简单网站郑州做网站企业汉狮
  • 铺面怎样做放上网站网站后台排版布局
  • ftp网站 免费网站建设是属于虚拟产品吗
  • 高端网站建设找哪个公司吉林企业网站模板建站哪个好