当前位置: 首页 > news >正文

银川网站开发推广企业灰色推广

银川网站开发推广企业,灰色推广,电商沙盘seo裤子关键词,南京做网站建设有哪些在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。 #一、 olmOCR是使用VLM进行的端到端的PDF文档解析 二、document-anchoring 与上述的不同在于,olmOCR使用…

在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。

#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
在这里插入图片描述

二、document-anchoring

与上述的不同在于,olmOCR使用了document-anchoring,文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字,使用pyPDF库进行解析。
在这里插入图片描述
通过在提示词里加入这些文字位置、图像位置、元数据等信息,VLM的幻觉大大减少。
加上位置信息,VLM应该能够定位到具体区域,然后专注于这部分的解析。
仅用页面图像进行提示容易出现未完成的句子,或者在图像数据模糊时产生不忠实的输出。

三、模型微调

数据集:构建了olmOCR-mix-0225数据集
训练:在Qwen2-VL-7B-Instruct上微调
评估:
1.与教师模型GPT-4o计算对齐得分,具体是文档相似性度量,该度量将文档拆分为单词,使用Hirschberg算法对这些单词进行对齐,并计算匹配的比例
2.人类评估:ELO分数
3.下游任务评估

项目:https://github.com/allenai/olmocr

http://www.hkea.cn/news/993975/

相关文章:

  • 初学者做动态网站项目例子游戏特效培训机构排名
  • 汽车类网站搭建直链平台
  • 做网站遇到的困难总结网络营销软件代理
  • 做网站登录论坛外链代发
  • 东营专业网站建设公司排行青岛谷歌优化公司
  • 公众号和网站先做哪个口碑营销的形式
  • 长沙企业建网站费用关键词搜索推广排行榜
  • 怎么做网站端口代理沧州网络推广外包公司
  • php wordpress 目录seo课程培训机构
  • 常州网站建设方案优化引流app推广软件
  • 网络营销网站建设实训网络营销步骤
  • 网站都有后台吗百度竞价开户公司
  • 秭归网站建设网站seo优化心得
  • wordpress电影网站模板seo运营
  • 公司注册网上核名业务如何终止网站排名优化怎么做
  • 网站建设伍金手指下拉2网上推广平台
  • 沧州网站建设公司翼马爱情链接
  • 计算机学了出来干嘛免费优化推广网站的软件
  • 宁波网站建设优化湖南seo优化按天付费
  • 门户网站手机版google官网入口
  • 深圳市工程建设交易服务中心网站软文什么意思
  • 大型网架加工厂成都网站建设方案优化
  • 导航网站的广告怎么做的千锋教育官方网
  • etc网站开发票网站制作软件免费下载
  • 上海seo网站设计2022十大网络营销案例
  • 还有做网站的必要吗网站运营推广方案
  • 企业营销型网站建设厂家品牌搜索引擎服务优化
  • 学校网站建设计划怎么成为百度推广代理商
  • 普陀网站开发培训学校seo快速优化
  • 建一个商城网站多少钱免费的网站推广软件