当前位置: 首页 > news >正文

织梦企业门户网站专业做冻货的网站

织梦企业门户网站,专业做冻货的网站,html网页搭建,wordpress 获取用户名文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf#xff0c;如果是图片格式的pdf需要用到ocr包#xff0c;以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- … 文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf如果是图片格式的pdf需要用到ocr包以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- coding: utf-8 -*- import json import osfrom pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):批处理:return:for pdf_name in os.listdir(src_dir):pdf_path os.path.join(src_dir, pdf_name)text_path os.path.join(tgt_dir, f{os.path.splitext(pdf_name)[0]}.txt)json_path os.path.join(tgt_dir, f{os.path.splitext(pdf_name)[0]}.json)pdf_utils PDFUtils()pdf_list pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, modew, encodingutf-8) as f:f.write(.join([.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, modew, encodingutf-8) as f:f.write(json.dumps(pdf_list, ensure_asciiFalse))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list [] # 二维数组一维放页二维放行with open(path, rb) as f:praser PDFParser(f)doc PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm PDFResourceManager()laparams LAParams()device PDFPageAggregator(pdfrm, laparamslaparams)interpreter PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list [] # 保存每行数据# print(page_idx)interpreter.process_page(page)layout device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, get_text):content line.get_text()# print(content)# output StringIO()# output.write(content)# content output.getvalue()# output.close()# print(content)if content and content.replace( , ) ! \n:line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ __main__:# pdf目录src_dir ./pdf# 生成的txt和json文件的保存目录tgt_dir ./text_and_json# 批量转换batch_process(src_dir, tgt_dir)
http://www.hkea.cn/news/14429949/

相关文章:

  • iis里如何装php网站深圳网站设计公司如何
  • 网站由什么组成亚马逊一个月赚5万难吗
  • 如何建广告网站企业网站建设方案书 范本
  • 景区网站建设的意义咨询公司网站模板
  • 网站如何添加百度商桥慧聪网官方网站
  • 有什么网站做投标设计wx5 做网站可以么
  • 了解网站建设恶意点击推广神器
  • xampp 做网站一起做网店潮汕
  • 搭建网站怎么挣钱自动跳转手机网站代码
  • 北京网站改版公司河间米各庄网站建设制作
  • 购物网站排行榜阿坝州做网站公司
  • dz论坛网站创建页面南京市网站开发
  • 山西省建设工程信息网站wordpress主题模板免费
  • 东莞多语言网站建设榆林市横山县建设局官方网站
  • 网站logo是什么asp.net做网站吗
  • html5笑话网站源码阿里 做网站
  • 直播网站的建设您提供的产品已经提交过网站备案
  • 网站建设规划书总结怎么写网站百度地图生成器
  • 做公众号还是网站友情链接交换的方法
  • 好看手机网站推荐欧洲做塑料交易网站
  • 张家港网站推广优化上海软件开发外包
  • 网站上做旅游卖家要学什么软件快速网站建设价格
  • 重庆网站建设论坛品牌网站建设定制
  • 万网虚拟主机建网站企业建站程序推荐
  • 淘宝网站推广策划方案怎么做福利视频网站
  • 网站分站原理个人形象设计网站
  • 网站后期维护费用北京网页制作
  • 一个网站要怎么做免费的企业名录搜索
  • 密云城市建设官方网站商务网站运营与管理
  • h5微信网站建设上海中国国际进口博览会