当前位置: 首页 > news >正文

如何做网站页面免费的烟台北京网站建设公司哪家好

如何做网站页面免费的,烟台北京网站建设公司哪家好,百度识图网页版在线,wordpress点击慢1.介绍 PyMuPDF 和Fitz 是用于Python中处理PDF文件的相关模块。Fitz是P有MuPDF的字模块。提供一个简化和封装版本的P有MuPDF功能。 关系#xff1a; PyMuPDF#xff1a; 提供广泛的功能#xff0c;用于操作PDF文档#xff0c; 包括方便的高级函数与底层操作Fitz #x…1.介绍 PyMuPDF 和Fitz 是用于Python中处理PDF文件的相关模块。Fitz是P有MuPDF的字模块。提供一个简化和封装版本的P有MuPDF功能。 关系 PyMuPDF 提供广泛的功能用于操作PDF文档 包括方便的高级函数与底层操作Fitz 简化和封装了PyMuPDF的功能使在python中处理PDF文件更加简单 2. 基本操作 获取PDF的文档基本信息 # -*- coding: utf-8 -*- # PyMuPDF1.23.26 import fitzpdf_path rag_datas/text.pdf doc fitz.open(pdf_path) # 文件加载# basic PDF info title doc.metadata[title] author doc.metadata[author]# 文档作者 create_data doc.metadata[creationDate] # 文档创建时间 num_pages doc.page_count # 文档页数 page doc.load_page(0) # 第一页 page_height page.bound().height page_width page.bound().width 获取pdf文档中的文本 # -*- coding: utf-8 -*- # PyMuPDF1.23.26 import fitzpdf_path rag_datas/text.pdf doc fitz.open(pdf_path) # 文件加载 num_pages doc.page_count # 文档页数# Text info of pdf for page_index in range(num_pages ):page doc.load_page(page_index)# 获取页面内容text page.get_text()# 获取页面文本print(f第{page_index 1} 页的文本内容为\n{text }\n) 获取pdf文档中的图片 # -*- coding: utf-8 -*- # PyMuPDF1.23.26 import fitzpdf_path rag_datas/text.pdf doc fitz.open(pdf_path) # 文件加载 num_pages doc.page_count # 文档页数# Image info of pdf for page_index in range(num_pages ):page doc.load_page(page_index)# 获取页面内容image_list page.get_images()# 获取页面图片print(image_list) # 图片基本信息for img in image_list:xref img[0]pix fitz.Pixmap(doc, xref)print(pix.colorspace, --, fitz.csRGB)img_path f../output/image{page_index 1}_{xref}.pngpix.save(img_path ) 获取pdf文档中的表格 # -*- coding: utf-8 -*- # PyMuPDF1.23.26 import fitzpdf_path rag_datas/text.pdf doc fitz.open(pdf_path) # 文件加载 num_pages doc.page_count # 文档页数# tables info of pdf for page_index in range(num_pages ):page doc.load_page(page_index)# 获取页面内容tables page.find_tables()# 获取页面表格print(ftables: {tables})# 提取的表格数据将会保存为csv格式文件for i, table in enumerate(tables):df tables[0].to_pandas()print(df.head())df.to_csv(f../output/table_pd_{page_index}_{i1}.csv, indexFalse) 获取pdf 文档 分割 # -*- coding: utf-8 -*- # PyMuPDF1.23.26 import fitzpdf_path rag_datas/text.pdf doc fitz.open(pdf_path) # 文件加载 num_pages doc.page_count # 文档页数 # 构建输出文件名以页数命名 # for i in range(1, num_pages ):print(fi{i})# 创建一个新的Document对象包含当前页面new_pdf fitz.open()new_pdf.insert_pdf(pdf_document. from_pagei-1, to_pagei)# 保存单独的PDF文件new_pdf.save(output_pdf.format(i))new_pdf.close()pdf_document.close() 借助大模型进行文档问答 # -*- coding: utf-8 -*- # PyMuPDF1.23.26 import os import fitz from openai import OpenAIdef get_pdf_content(pdf_path:str)- str:doc fitz.open(pdf_path)num_pages doc.page_countbg_content_list []#Full Text of PDFfor page_index in range(num_pages):page doc.load_page(page_index)text page.get_text()bg_content_list.append(text)return .join(bg_content_list)def get_answer(pdf_content: str, query:str) - str:client OpenAI(api_keyos.getenv(OPENAI_API_KEY))response clinet.chat.completions.create(model gpt-3.5-turbo,messages[{role:system,content:You are a helpful assistant.},{role:user,content:fThe full text of PDF file is : {pdf_content}},{role:user,content:query}],max_tokens1000)answer response.choices[0].message.contentreturn answerif __name____main__:content get_pdf_content(rag_datas/text.pdf)query_1 蚂蚁集团发布的大模型叫什么print(get_answer(pdf_content content, queryquery_1 ))query_2 混元大模型是什么时候发布的print(get_answer(pdf_content content, queryquery_2 )) 参考 版面分析–PDF解析神器PyMuPDF github: https://github.com/pymupdf/PyMuPDF 官方文档https://pymupdf.readthedocs.io/en/latest/tutorial.html
http://www.hkea.cn/news/14576749/

相关文章:

  • 网站制作方案怎么写什么叫网落营销
  • 深圳营销网站建设联系方式苏州市建设交通高等学校网站
  • 188自助建站系统百度网页版入口官网
  • 机械类外贸网站建设网站建设方案书格式
  • 营销型企业网站怎么制作智慧旅游门户网站建设方案
  • 海报设计网站免费云龙主机 wordpress
  • 烟台网站建设设计智慧软文网站
  • 网站的风格有哪些东营做网站seo的
  • 做网站的网站犯法吗东莞网站设计建设公司
  • 网站响应速度多少合适wordpress安全设置
  • 南昌易动力网站建设公司it外包的优点不包括
  • 秦皇岛建设网站公司哪家好网站的pr
  • wordpress建站案例视频教程百度上如何做企业网站
  • wordpress如何发布文章做一个网站加优化排名得多少钱
  • 外国网站英语要求05网英语课课练答案
  • 教育网站建设 飞沐哪个网站可以做自由行地图
  • wordpress修改文字内容网站优化 合同
  • 哪个网站可以做装修效果图哪个网站是做韩国化妆品正品
  • 零基础自学做网站wordpress 图灵机器人
  • 公司网站转微信小程序北京注册公司查询
  • 西安做网站建设哪家好北京 网站建设 知乎
  • seo优缺点兰州优化网站
  • 泉州丰泽建设局网站手机端网页设计尺寸规范
  • wordpress全站备份互联网运营推广公司
  • 本地的番禺网站建设住房与城乡建设局网站
  • 四川省建设工程招投标网站宣传片制作网站
  • 深圳市研发网站建设哪家好网站游戏入口
  • asp access网站开发实例精讲哪些公司可以建设网站
  • 哪里做网站比较稳定如何做app推广
  • wp网站模板建设银行公积金网站