当前位置: 首页 > news >正文

那个网站可以做网页淘宝网页美工设计

那个网站可以做网页,淘宝网页美工设计,wordpress标签订阅插件,wordpress woomerce大家好#xff0c;今天给大家分享的是一个开源的快速准确地将 PDF 转换为 markdown工具。 Marker是一款功能强大的PDF转换工具#xff0c;它能够将PDF文件快速、准确地转换为Markdown格式。这款工具特别适合处理书籍和科学论文#xff0c;支持所有语言的转换#xff0c;并…大家好今天给大家分享的是一个开源的快速准确地将 PDF 转换为 markdown工具。 Marker是一款功能强大的PDF转换工具它能够将PDF文件快速、准确地转换为Markdown格式。这款工具特别适合处理书籍和科学论文支持所有语言的转换并且能够去除页眉、页脚等干扰元素格式化表格和代码块提取并保存图像和Markdown文件并将大部分方程式转换为LaTeX格式。 功能简介 Marker重新定义 PDF 到 Markdown 的转换效率。 •Marker 满足了将复杂的 PDF 文档转换为 markdown 以便于管理的日益增长的需求。 •传统的文本转换器难以维持原始布局、格式和内容的准确性。 •Marker 擅长准确地保存表格、代码块和数学方程式等复杂元素。 •自动去除文档中的非主要元素如页眉和页脚。 •它能够以优化的处理速度和资源使用率有效地处理大量数据。 •Marker 的定制方法减少了数字 PDF 对 OCR 的依赖从而实现了更快、更精确的转换。 •可以在GPU、CPU或MPS上运行。 实现原理 Marker的工作原理基于深度学习模型。它首先通过OCR技术如果需要的话提取文本采用启发式算法和 tesseract 工具然后检测页面布局并确定阅读顺序使用 布局分割器[1] 和 列检测器[2]。接下来Marker会对每个文本块进行清洁和格式化处理运用启发式算法和 nougat[3]最后将所有块合并并进行后处理生成完整的Markdown文本利用启发式算法和 pdf后处理器[4]。Marker只在必要时使用模型从而提高了转换速度和准确性。 性能表现 通过查找具有 pdf 版本和 latex 源的书籍和科学论文创建了一个测试集。将 latex 转换为文本并将参考与文本提取方法的输出进行比较。 基准测试表明 marker 比 nougat 快 4 倍而且在 arXiv 之外更准确nougat 是在 arXiv 数据上训练的 速度 MethodAverage ScoreTime per pageTime per documentmarker0.6137210.63199158.1432nougat0.4066032.59702238.926 准确性 前 3 篇是非 arXiv 书籍后 3 篇是 arXiv 论文。 Methodmulticolcnn.pdfswitch_trans.pdfthinkpython.pdfthinkos.pdfthinkdsp.pdfcrowd.pdfmarker0.5361760.5168330.705150.7106570.6900420.523467nougat0.440090.5889730.3227060.4013420.1608420.525663 基准测试期间nougat的 GPU 内存使用峰值为 4.2GB而marker的 GPU 内存使用峰值为 4.1GB。 基准测试在 A6000 Ada 上运行。 使用 安装 您需要 Python 3.9 和 PyTorch。如果您使用的不是 Mac 或 GPU 机器则可能需要先安装 CPU 版本的 torch。请参阅此处[5]了解更多详细信息。 安装方式 pip install marker-pdf 转换单个文件 marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English •--batch_multiplier是如果您有额外的 VRAM默认批处理大小要乘以的数值。数字越大占用的 VRAM 越多但处理速度越快。默认设置为 2。默认批处理大小将占用约 3GB 的 VRAM。 •--max_pages是要处理的最大页数。忽略此项可转换整个文档。 •--langs是文档中用于 OCR 的语言的逗号分隔列表 转换多个文件 marker /path/to/input/folder /path/to/output/folder --workers 10 --max 10 --metadata_file /path/to/metadata.json --min_length 10000 •--workers是一次要转换的 PDF 数量。默认情况下此值设置为 1但您可以增加此值以增加吞吐量但代价是增加 CPU/GPU 使用率。INFERENCE_RAM / VRAM_PER_TASK如果您使用 GPU则并行度不会增加。 •--max是要转换的 PDF 的最大数量。省略此项可转换文件夹中的所有 PDF。 •--min_length是需要从 PDF 中提取的最少字符数然后才会考虑进行处理。如果您要处理大量 PDF我建议设置此项以避免对大部分是图像的 PDF 进行 OCR。这会减慢一切速度 •--metadata_file是包含有关 pdf 元数据的 json 文件的可选路径。如果您提供它它将用于设置每个 pdf 的语言。如果没有DEFAULT_LANG将使用。格式为 { pdf1.pdf: {languages: [English]}, pdf2.pdf: {languages: [Spanish, Russian]}, ...} 在多个 GPU 上转换多个文件 MIN_LENGTH10000 METADATA_FILE../pdf_meta.json NUM_DEVICES4 NUM_WORKERS15 marker_chunk_convert ../pdf_in ../md_out •METADATA_FILE是包含 pdf 元数据的 json 文件的可选路径。请参阅上文了解格式。 •NUM_DEVICES是要使用的 GPU 数量。应大于2或等于。 •NUM_WORKERS是每个 GPU 上运行的并行进程数。每个 GPU 的并行度不会超过INFERENCE_RAM / VRAM_PER_TASK。 •MIN_LENGTH是需要从 PDF 中提取的最少字符数然后才会考虑进行处理。如果您要处理大量 PDF我建议设置此项以避免对大部分是图像的 PDF 进行 OCR。这会减慢一切速度 项目地址 https://github.com/VikParuchuri/marker References [1] 布局分割器: https://huggingface.co/vikp/layout_segmenter[2] 列检测器: https://huggingface.co/vikp/column_detector[3] nougat: https://huggingface.co/facebook/nougat-base[4] pdf后处理器: https://huggingface.co/vikp/pdf_postprocessor_t5[5] 此处: https://pytorch.org/get-started/locally/
http://www.hkea.cn/news/14400037/

相关文章:

  • wordpress 网站关键词怎么用软件做原创视频网站
  • 如何做游戏网站页面设计图标
  • 西安做网站公司有哪些凡科商城app下载
  • 房地产企业网站开发外国优秀设计网站
  • 网站开发缓存seo的内容有哪些
  • 洛阳网站公司备案网址
  • 河南中英网站建设权威发布的意思是什么
  • 网站排名优化推广厦门东莞 网站建设企业
  • 网站设计有限公司单位网站建设要多少钱
  • 建设项目查询网站三个字的洋气商标名字
  • 网站怎么设置qq微信分享接口网站开发 php
  • 网站 建设制作菜鸟教程网站建设工具哪个好用
  • 房产机构网站建设目标定位响应式潍坊网站建设
  • 免费手机网站自助建站青岛天河小学网站建设
  • 开启WordPress多站点功能医疗信息化软件公司排名
  • 做电影售票网站的难点有什么软件做短视频网站好
  • 网站域名价值查询在线制作头像框
  • ppt模板网站开发成都企业网站建设费用
  • 个人网站设计作业郑州网站推广公司咨询
  • 网站建设风格要求电影网站做cpa
  • 如今的网站建设家教网站开发公司
  • 网站1g租用价格想设计一个自己的logo
  • 如何建立企业网站或者官网菜鸟网站建设
  • 品牌网站建设 磐石网络的确好苏州抖音代运营公司
  • 食品行业网站源码重庆网站建设合肥公司
  • 网站编程设计心得体会琼海在线
  • 宜城做网站WordPress代码实现标签页面
  • 松原建设小学网站重庆网站产品推广
  • 三台县城乡建设网网站进入公众号怎么找出二维码
  • 彩票黑网站是怎么做的哪个平台招人最快