当前位置：首页 > news >正文

全网网站建设北京优化公司司

news 2026/4/26 13:20:03

全网网站建设,北京优化公司司,wordpress 更改自带域名,微商城网站开发视频前言是谁#xff0c;是谁在网页上搜索往年考试卷题答案的时候只能阅读前两页的选择题#xff0c;是谁在搜几千字的文档资料只能看25%#xff0c;是谁在百度文库找七找八的时候所有的东西都要付费才能继续看… 我先说是我自己我又不经常用#xff0c;只有偶尔需要看看…前言是谁是谁在网页上搜索往年考试卷题答案的时候只能阅读前两页的选择题是谁在搜几千字的文档资料只能看25%是谁在百度文库找七找八的时候所有的东西都要付费才能继续看… 我先说是我自己我又不经常用只有偶尔需要看看还要我掏钱包我说不行绝对不行什么都行谈钱不行咱没钱咱有技术直接让python帮我今天就来分享下用Python实现某du文库vip内容下载, 保存到word文档前期准备环境使用 python 3.8pycharm 模块使用 requests 数据请求模块 pip install requestsdocx 文档保存 pip install python-docxre 内置模块不需要安装ctrl R 爬虫: 首先你得看得数据, 才能想办法获取代码实现步骤发送请求, 模拟浏览器对于url地址发送请求图片数据包: 获取数据, 获取服务器返回响应数据开发者工具: response 解析数据, 提取图片链接地址保存数据, 把图片内容保存到本地文件夹做文字识别, 识别文字内容把文字数据信息, 保存word文档里面导入数据请求模块 import requests 导入格式化输出模块 from pprint import pprint 导入base64 import base64 导入os模块 import os 导入文档模块 from docx import Document 导入正则 import re 导入 json import json 1. 发送请求, 模拟浏览器对于url地址发送请求长链接, 可以分段写问号前面: url链接问号后面: 请求参数/查询参数源码.点击.领取.即可 # 确定请求链接 url https://*****.com/gsearch/rec/pcviewdocrec# 请求参数data {docId: docId,query: name,recPositions: }# 请求头headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36}#发送请求response requests.get(urlurl, paramsdata, headersheaders)# Response [200] 响应对象, 200 表示请求成功print(response)2. 获取数据, 获取服务器返回响应数据开发者工具: response sponse.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式花括号 {} esponse.text 获取响应文本数据, 返回字符串任何时候都可以, 但是基本获取网页源代码的时候 response.content 获取响应二进制数据, 返回字节保存图片/音频/视频/特定格式文件print(response.json()) 打印字典数据, 呈现一行 pprint(response.json()) 打印字典数据, 呈现多行, 展开效果3. 解析数据, 提取图片链接地址字典取值: 键值对根据冒号左边内容[键], 提取冒号右边的内容[值] # 定义文件名整型 num 1 # for循环遍历, 把列表里面元素一个一个提取出来 for index in response.json()[data][relateDoc]:# index 字典呀pic index[pic]print(pic)4. 保存数据发送请求获取数据二进制数据内容 # img_content requests.get(urlpic, headersheaders).content # # img\\文件夹名字 str(num)文件名 .jpg文件后缀 modewb 保存方式, 二进制保存 # # str(num) 强制转换成字符串 # # 图片\\ 相对路径, 相对于你代码的路径你代码在那个地方, 那个代码所在地方图片文件夹 # with open(图片\\ str(num) .jpg, modewb) as f: # # 写入数据保存数据把图片二进制数据保存 # f.write(img_content) # # 每次循环 1 # print(num) # num 15. 做文字识别, 识别文字内容文字识别: 注册一个百度云API账号创建应用并且去免费领取资源在技术文档里面 Access Token获取调用API接口做文字识别 python学习交流Q群690643772 ### 源码领取 def get_content(file):# client_id 为官网获取的AK client_secret 为官网获取的SKhost https://*****compresponse requests.get(host)access_token response.json()[access_token]通用文字识别高精度版request_url https://********.com/rest/2.0/ocr/v1/accurate_basic# 二进制方式打开图片文件f open(file, rb)img base64.b64encode(f.read())params {image:img}request_url request_url ?access_token access_tokenheaders {content-type: application/x-www-form-urlencoded}json_data requests.post(request_url, dataparams, headersheaders).json()# 列表推导式words \n.join([i[words] for i in json_data[words_result]])return words读取文件夹里面所有图片内容 content_list [] files os.listdir(img\\) for file in files: filename img\\ file words get_content(filefilename) print(words) content_list.append(words)6. 把文字数据信息, 保存word文档里面保存word文档里面 doc Document()添加第一段文档内容 content \n.join(content_list) doc.add_paragraph(content) doc.save(data.docx)最后今天的分享到这里就结束了有问题的宝子可以评论区留言或者点击末尾名片进行交流学习哦

查看全文

http://www.hkea.cn/news/14421949/