当前位置: 首页 > news >正文

网站定制牛七科技wordpress 4.7.3 乱码

网站定制牛七科技,wordpress 4.7.3 乱码,下载源代码的网站,怀化市优化办电话最近工作中经常遇到收到其他人提供的pdf文档#xff0c;想要编辑修改下或者复制部分内容比较困难#xff0c;想通过现有的pdf工具软件转换文档格式#xff0c;基本都要充钱#xff0c;为了免费实现pdf转换工具#xff0c;网上查了下相关技术方案#xff0c;整理了下代码想要编辑修改下或者复制部分内容比较困难想通过现有的pdf工具软件转换文档格式基本都要充钱为了免费实现pdf转换工具网上查了下相关技术方案整理了下代码测试真实有效分享下。 第一步安装相关第三方库 pip install PyMuPDF -i https://mirrors.aliyun.com/pypi/simple pip install pdf2docx -i https://mirrors.aliyun.com/pypi/simple 第二步编写代码 pdfConverter.py: import datetime import os # fitz就是pip install PyMuPDF import fitz # pdf2docx 也是封装 fitz 模块为基础开发的 from pdf2docx import Converter pdf 转换工具包 pdf 转成 word pdf 转成 图片 pdf 转成 html def pdf2word(file_path):方法名称: pdf转word中文注释: pdf转word入参:param file_path str pdf文件路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param doc_file str word文件名作 者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2word(test.pdf)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()# 提取文件名去除文件后缀file_name file_path.split(.)[0]print(file_name)# word文件名doc_file f{file_name}.docxprint(doc_file)p2w Converter(file_path)convert(doc_file,start,end)函数中doc_file转化完成后文件名start转化开始页面end转化结束页面注意点①若不给startend参数则默认转化全篇②对于不连续的页面也可写作convert(doc_file , pages [2,4,6])p2w.convert(doc_file, start0, endNone)p2w.close()endTime datetime.datetime.now() # 结束时间print(pdf转word耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转word成功)# 返回容器return [1, 000000, pdf转word成功, [doc_file]]except Exception as e:p2w.close()print(pdf转word异常, str(e))return [0, 999999, pdf转word异常, str(e), [None]]def pdf2image(file_path, image_path):方法名称: pdf转图片中文注释: pdf转图片入参:param file_path str pdf文件路径param image_path str 输出图片路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param image_path str 输出图片路径作 者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2image(test.pdf, ./images)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]if (not type(image_path) is str):return [0, 111112, 输出图片路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()print(pdfPath file_path)# 提取文件名去除文件后缀file_name file_path.split(.)[0]print(file_name)print(imagePath imagePath)# 打开pdf文档pdfDoc fitz.open(file_path)# 判断存放图片的文件夹是否存在if not os.path.exists(image_path):# 若图片文件夹不存在就创建os.makedirs(image_path)# Document.page_count 页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print(%s % (pg 1))页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量SVG图像可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像并搜索文本字符串。对于PDF文档可以使用更多的方法向页面添加文本或图像。page pdfDoc[pg]rotate int(0)# 每个尺寸的缩放系数为1.3这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置默认图片大小为792X612, dpi96zoom_x 1.33333333 # (1.33333333--1056x816) (2--1584x1224)zoom_y 1.33333333mat fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pix是一个Pixmap对象它在本例中包含页面的RGB图像可用于多种用途。方法Page.get_pixmap()提供了许多用于控制图像的变体分辨率、颜色空间例如生成灰度图像或具有减色方案的图像、透明度、旋转、镜像、移位、剪切等。 例如创建RGBA图像即包含alpha通道指定pixpage.get_pixmapalphaTrue。 Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度每个像素和跨距一个水平图像行的字节数。属性示例表示表示图像数据的矩形字节区域Python字节对象。 还可以使用page.get_svg_image()创建页面的矢量图像。pix page.get_pixmap(matrixmat, alphaFalse)# 将图片写入指定的文件夹内pix.save(image_path / file_name _%s.png % (pg 1))endTime datetime.datetime.now() # 结束时间print(pdf转图片耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转图片成功)# 返回容器return [1, 000000, pdf转图片成功, [image_path]]except Exception as e:print(pdf转图片异常, str(e))return [0, 999999, pdf转图片异常, str(e), [None]]def pdf2html(file_path):方法名称: pdf转html中文注释: pdf转html入参:param file_path str pdf文件路径出参:返回状态:return 0 失败或异常return 1 成功返回错误码返回错误信息param out_file str html文件名作 者: PandaCode辉创建时间: 2023-10-16使用范例: pdf2html(test.pdf)try:if (not type(file_path) is str):return [0, 111111, pdf文件路径参数类型错误,不为字符串, [None]]# 开始时间startTime datetime.datetime.now()print(pdfPath pdfPath)# 打开pdf文档pdfDoc fitz.open(pdfPath)# 提取文件名去除文件后缀file_name pdfPath.split(.)[0]print(file_name)out_file f{file_name}.htmlprint(out_file)# 打开文件首次创建写入fo open(out_file, w, encodingutf-8)# Document.page_count 页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print(%s % (pg 1))页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量SVG图像可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像并搜索文本字符串。对于PDF文档可以使用更多的方法向页面添加文本或图像。page pdfDoc[pg]提取文本和图像 page.get_text(opt) 我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息对opt使用以下字符串之一以获取不同的格式text默认带换行符的纯文本。无格式、无文字位置详细信息、无图像blocks生成文本块段落的列表words生成单词列表不包含空格的字符串html创建页面的完整视觉版本包括任何图像。这可以通过internet浏览器显示dict / json与HTML相同的信息级别但作为Python字典或resp.JSON字符串。rawdict / rawjsondict / json的超级集合。它还提供诸如XML之类的字符详细信息。xhtml文本信息级别与文本版本相同但包含图像。xml不包含图像但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释# html 格式保存原PDF文本和图片样式还行# text page.get_text(html)# xhtml 格式保存原PDF文本和图片样式更好text page.get_text(xhtml)# 写入文件fo.write(text)# 关闭文件fo.close()endTime datetime.datetime.now() # 结束时间print(pdf转html耗时 %s 秒 % (endTime - startTime).seconds)print(pdf转html成功)# 返回容器return [1, 000000, pdf转html成功, [out_file]]except Exception as e:# 关闭文件fo.close()print(pdf转html异常, str(e))return [0, 999999, pdf转html异常, str(e), [None]]if __name__ __main__:# PDF地址pdfPath test.pdf# 1pdf转wordpdf2word(pdfPath)# 储存图片的目录imagePath ./images# 2pdf转图片pdf2image(pdfPath, imagePath)# 3pdf转htmlpdf2html(pdfPath)第三步运行查看效果
http://www.hkea.cn/news/14475601/

相关文章:

  • 网站开发流程电话普通人做电商要多少钱
  • 公司的网站是什么行者seo
  • 视频网站的建设预算宁波市政务网站建设和管理标准
  • 网站需要数据库吗网站综合查询工具
  • 网站开发需求分析包括哪些方面网站开发的高级阶段包括什么
  • 襄阳做网站的公司陇南市建设局网站公示
  • 网站虚拟主机建设做网站代码用什么软件
  • google 网站优化工具做微信商城网站哪家好
  • 国家企业信用信息公示系统江苏南阳seo网站推广费用
  • 投票网站源码php云南云南省建设厅网站
  • 可以做微课ppt模板 网站有哪些内容php 文档系统wordpress
  • 自动搭建网站建设局属于哪个部门管
  • 国家重大建设项目库填报网站做个网站哪里可以做
  • 网站建设设计说明推广网站平台
  • 网站查询器怎样建设一个购物网站
  • 济南市住房和城乡建设局网站公益网站建设
  • 免费推广网站建设南京网站建站公司
  • 弱电工程公司网站怎么做泰安房产成交信息网
  • 温州做网站哪家好wordpress能改用户名吗
  • 广州企业网站设计公司tp5企业网站开发视频
  • 怎样做网站网站公司网站开发国内外现状
  • 建网站公司浩森宇特能免费做网站
  • 怎样在国外网站上做外贸广告泉州app制作
  • 体育网站开发的目的代理记账公司注册需要什么条件
  • 国家高新技术企业查询网站wordpress 产生大量首页
  • 网站建设开票应该开哪个行业如何建设视频网站
  • 唐山建网站镇江做网站的
  • 初级程序员与网站开发福永自适应网站建设
  • 郑州手机网站建设住房和城乡建设岗位证书
  • 徐汇苏州网站建设如何制作自己的网站的邮箱