专业网站制作公司名称,安徽省交通建设工程质量监督局网站,资金盘网站建设,360广告联盟怎么做网站#x1f935;♂️ 个人主页#xff1a;艾派森的个人主页 ✍#x1f3fb;作者简介#xff1a;Python学习者 #x1f40b; 希望大家多多支持#xff0c;我们一起进步#xff01;#x1f604; 如果文章对你有帮助的话#xff0c; 欢迎评论 #x1f4ac;点赞#x1f4… ♂️ 个人主页艾派森的个人主页 ✍作者简介Python学习者 希望大家多多支持我们一起进步 如果文章对你有帮助的话 欢迎评论 点赞 收藏 加关注 目录
一、Python处理PDF
二、用Python将PDF文件转存为图片
三、往期推荐
四、文末推荐与福利 一、Python处理PDF Python处理PDF的好处 自动化和批量处理使用Python你可以自动处理大量的PDF文件例如从扫描仪生成的文档、报告、合同等。这可以节省大量时间和努力尤其是在需要重复性任务时。 文本提取Python可以轻松地从PDF中提取文本内容使其可搜索、可编辑和可分析。这对于文本分析、数据挖掘和文档检索等任务非常有用。 报告生成你可以使用Python创建自定义的PDF报告将数据、图表和图像等信息以专业的方式呈现。这对于生成自动化的业务报告、数据可视化和数据分析很有帮助。 PDF编辑Python库和工具使你能够合并、拆分、旋转、裁剪和编辑PDF文件的页面。这对于在不使用专业PDF编辑软件的情况下进行简单的文档编辑很有用。 图像提取Python允许你从PDF文件中提取图像这对于处理包含图形、图表和图片的文档非常有帮助。 数据提取当PDF文件包含表格或结构化数据时Python可以用于提取和转换这些数据以便进一步分析或导入到数据库中。 自定义处理Python提供了多种用于PDF处理的库允许你根据项目的需求进行自定义处理。你可以选择适合你需求的库以满足具体要求。 跨平台Python是跨平台的因此你可以在不同操作系统上运行相同的代码而无需担心兼容性问题。
Python处理PDF文件的主要第三方库包括 PyPDF2PyPDF2是一个用于处理PDF文件的库可以用于提取文本、合并、拆分和旋转PDF文件的页面。它还支持添加页面、水印和书签等功能。 ReportLabReportLab是一个用于创建PDF文件的库允许你以编程方式构建PDF文档包括添加文本、图像、表格等。 PDFMinerPDFMiner是一个用于提取文本和元数据的PDF处理库。它可以解析PDF文件并提取文本、布局信息和链接等。 pdf2imagepdf2image是一个用于将PDF文件转换为图像的库这对于处理包含图形的PDF文件非常有用。 fpdf2fpdf2是一个用于创建PDF文件的库支持自定义字体、图像和表格等。 PyMuPDFPyMuPDF是一个用于处理PDF文件的库可以用于提取文本、图像和元数据。它还支持PDF文件的渲染和转换为图像。 CamelotCamelot是一个用于提取表格数据的库特别适用于从PDF文件中提取表格数据。 Tabula-pyTabula-py是一个用于提取表格数据的库可将PDF中的表格转换为DataFrame对象。 开发环境
操作系统使用windows, mac都可以
Python版本系统中需要安装Python3.6以上的版本Python2已经过期不建议使用Python3.6以前的版本功能相对弱最好就是采用Python3.6以上的版本
开发工具有两个可以选择jupyter notebook是个网页编辑器可以运行Python常常用于交互性、探索性的开发pycharm用于成熟脚本或者web服务的一些开发这两个工具可以随意选择。
二、用Python将PDF文件转存为图片
技术工具
Python版本:3.9
代码编辑器jupyter notebook 因工作中的某些奇葩要求需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以但批量操作还是Python方便所谓搞定办公自动化Python出山一统天下Python出征寸草不生~ O(∩_∩)O 不过这个需要用到PyMuPDF库电脑运行cmd输入“pip install PyMuPDF”安装即可。安装后通过import fitz导入模块。等等为什么安装的是PyMuPDF导入的是fitz俺PyMuPDF就是这么任性怎么的爱用不用哈哈开个玩笑。其实是因为PyMuPDF曾用名fitz-python所以只是fitz换了个马甲而已。 这里先导入fitz库用于将PDF文件的页面提取成像素信息图片。再导入glob库用于获取后缀为.pdf的文件的文件名。os库可新建文件夹。
#批量将PDF文件转为图片
import fitz
import glob
import osimage_path 图片\\ #存放图片的文件夹
PDFfiles glob.glob(PDF文件\\*.pdf) #获取所有pdf文件的文件名
for PDFfile in PDFfiles: #遍历所有PDF文件PDFdoc fitz.open(PDFfile) #读取PDF文件folder_name PDFfile.split(\\)[-1].split(.)[0] #按源文件名新建文件夹for pg in range(PDFdoc.pageCount): #根据PDF的页数,按页提取图片 page PDFdoc[pg]#增强图片分辨率zoom_x 3 #水平方向zoom_y 3 #垂直方向mat fitz.Matrix(zoom_x, zoom_y) pix page.getPixmap(matrixmat) #按原PDF名称新建文件夹并按顺序保存图片if not os.path.exists(image_pathfolder_name):#判断文件夹是否已存在os.makedirs(image_pathfolder_name)#不存在则新建存在就跳过这行pix.writeImage(image_pathfolder_name \\{}.png.format(str(pg1))) #按PDF中的页面顺序命名并保存图片 以上我们先将所有待处理的PDF文件放入“PDF文件夹”然后通过glob.glob(PDF文件\\*.pdf)搜索并抓取所有以.pdf为后缀的文件并存入变量PDFfiles中。结果如下所示
PDFfiles 然后遍历PDFfiles中的所有PDF文件使用fitz.open()读取。fitz.open()用于创建PDF文件中页面的像素映射(pixel maps)即用像素来表示页面信息。然后按PDF文件名命名一个新的文件夹以便储存图片。比如给“收货记录.pdf”文件建一个名字为“收货记录”的文件夹专门储存关于它的页面的图片。随后用for循环根据PDF的页数按页提取图片。将每页的信息存入page变量它的type 是fitz.fitz.Page即一页像素文件。 为了让图片看起来更清晰需要增强图片的分辨率设定图片水平及垂直方向的增强倍数传入Matrix。Matrix用于提升即将保存的图片的分辨率分辨率的提升倍数为zoom_x与zoom_y的乘积。倍数越大图片越清晰当然占用空间也越大。这个参数可根据实际要求调整。然后将Matrix存入mat传入getPixmap()。getPixmap()用于控制图片分辨率、色域比如生成灰度图像或带有减色方案的图像、透明度、旋转、镜像、移位、剪切等。由于其它都不需要专门设定所以只增强其分辨率。 一页图片处理好后就需要保存图片了。先通过os.path.exists判断一下需要的文件夹是否存在若不存在就通过os.makedirs创建。然后用pix.writeImage按页码编号写入并保存图片。 三、往期推荐
Python提取pdf中的表格数据附实战案例
使用Python自动发送邮件
Python操作ppt和pdf基础
Python操作word基础
Python操作excel基础
使用Python一键提取PDF中的表格到Excel 使用Python批量生成PPT版荣誉证书
使用Python批量处理Excel文件并转为csv文件
四、文末推荐与福利 《巧用ChatGPT轻松玩转新媒体运营》免费包邮送出3本 内容简介 《巧用ChatGPT轻松玩转新媒体运营》从ChatGPT的基础知识讲起针对运营工作中的各种痛点结合实战案例如文案写作、图片制作、社交媒体运营、爆款视频文案、私域推广、广告策划、电商平台高效运营等手把手教你使用ChatGPT进行智能化工作。此外还介绍了通过ChatGPT配合Midjourney、D-ID等AI软件的使用进一步帮助提高运营工作的效率。 《巧用ChatGPT轻松玩转新媒体运营》内容通俗易懂案例丰富实用性较强特别适合想要掌握ChatGPT对话能力的读者和各行各业的运营人员如互联网运营人员、自媒体运营人员、广告营销人员、电商运营人员等。 另外《巧用ChatGPT轻松玩转新媒体运营》也适合作为相关培训机构的教材使用。 编辑推荐 AI赋能运营全流程实操文案写作 图片制作 社交媒体运营 爆款视频文案 私域推广 广告策划 电商平台高效运营。AI运营技巧大全 痛点解析全面提高效率让你弯道超车、轻松攀登运营之巅。 抽奖方式评论区随机抽取3位小伙伴免费送出参与方式关注博主、点赞、收藏、评论区评论“人生苦短拒绝内卷”切记要点赞收藏否则抽奖无效每个人最多评论三次活动截止时间2023-09-30 20:00:00 京东购买链接https://item.jd.com/14141370.html 当当网购买链接http://product.dangdang.com/29623612.html 名单公布时间2023-09-30 21:00:00