当前位置: 首页 > news >正文

cms搭建网站鹤岗哈尔滨网站建设

cms搭建网站,鹤岗哈尔滨网站建设,国外seo工具,官方网站建设状况目录 工具与设置 Python 识别图片中的文字 Python 识别图片中的文字及其坐标位置 Python 识别扫描PDF中的文字 注意事项 在处理扫描的PDF和图片时#xff0c;文字信息往往无法直接编辑、搜索或复制#xff0c;这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费…目录 工具与设置 Python 识别图片中的文字 Python 识别图片中的文字及其坐标位置 Python 识别扫描PDF中的文字 注意事项 在处理扫描的PDF和图片时文字信息往往无法直接编辑、搜索或复制这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费力还容易出错。光学字符识别OCR技术能够将图片中的文字转换为可编辑文本使信息提取和处理更加高效。如今OCR已广泛应用于扫描文件的转换、数字化文档的整理、以及自动化数据输入等领域。本文将介绍如何使用Python及相关OCR库实现对图片和扫描PDF中文字的识别。 工具与设置 要在Python中实现从图片和扫描PDF中提取文本我们需要选择一个适当的OCR库。本文所选择的库是Spire.OCR for Python。该库支持多种语言包括英语、法语、德语、简体中文、繁体中文、日语、韩语等。在使用该库之前我们需要完成以下两个步骤 步骤1安装Spire.OCR for Python 在终端中运行以下命令安装Spire.OCR for Python pip install Spire.OCR 步骤2下载OCR模型 Spire.OCR for Python提供了支持Windows64位、Linux64位和MacOS10.15及以上操作系统的三种模型。我们需要根据自己的系统下载适合的模型 Win x64Linux x64Mac 10.15及以上 下载完成后将它解压并保存到特定的目录下。 完成以上两个步骤后我们就可以使用该库实现识别图片和扫描PDF中的文字。 Python 识别图片中的文字 从图片中提取文本的过程比较简单。首先需要配置 OCR 扫描器的相关设置例如文本识别语言和OCR模型的路径然后对图片进行扫描最后将识别的文字保存为文本文件。 以下是从图片中提取文本的关键步骤 初始化 OCR 扫描器创建 OcrScanner 对象。配置 OCR 设置通过 OcrScanner 对象的 ConfigureDependencies 方法设置 OCR 模型的路径和文本识别语言。扫描图片使用 OcrScanner 对象的 Scan() 方法从图片中识别文本。保存文本获取识别出的文本并保存为文本文件。 实现代码 from spire.ocr import *# 初始化OcrScanner对象 scanner OcrScanner()# 配置OCR设置文本识别语言和OCR模型路径 # 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等 configureOptions ConfigureOptions() configureOptions.ModelPath rD:\OCR\win-x64 configureOptions.Language Chinese scanner.ConfigureDependencies(configureOptions)# 扫描图片 scanner.Scan(r测试.png)# 获取识别的文本 text scanner.Text.ToString() \n# 将文本保存到文本文件 with open(输出.txt, a, encodingutf-8) as file: file.write(text \n)原始图片和识别结果 Python 识别图片中的文字及其坐标位置 有时除了识别文本外还需要获取文本在图片中的坐标位置。Spire.OCR也支持提取这些信息。 以下是从图片中识别文本并获取其坐标位置的关键步骤 初始化OCR扫描器创建OcrScanner对象。配置OCR设置通过OcrScanner对象的ConfigureDependencies方法设置OCR模型的路径和文本识别语言。扫描图片使用OcrScanner 对象的Scan() 方法从图片中识别文本。获取边框坐标遍历识别的文本中的文本块获取每个文本块的边框信息x, y坐标及其宽度和高度。保存文本和坐标将文本及其坐标保存到文本文件中。 实现代码 from spire.ocr import *# 初始化OcrScanner对象 scanner OcrScanner()# 配置OCR设置文本识别语言和OCR模型路径 # 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等 configureOptions ConfigureOptions() configureOptions.ModelPath rD:\OCR\win-x64 configureOptions.Language Chinese scanner.ConfigureDependencies(configureOptions)# 扫描图片 scanner.Scan(r测试.png)# 遍历识别的文本中的文本块提取每个文本块的文本和坐标位置等信息 text for block in scanner.Text.Blocks:rectangle block.Boxpositions f{block.Text} - x: {rectangle.X}, y: {rectangle.Y}, w: {rectangle.Width}, h: {rectangle.Height}text positions \n# 将文本和坐标保存到文本文件 with open(图片文字及坐标.txt, a, encodingutf-8) as file:file.write(text \n)Python 识别扫描PDF中的文字 对于扫描的PDF文档需先将每一页转换为图片格式。可以借助Spire.PDF for Python库来实现这一点。将PDF页面转换为图片后即可对每张图片执行 OCR 处理。 在使用以下代码之前请先通过以下命令安装Spire.PDF pip install Spire.PDF 以下是从扫描PDF中提取文本的关键步骤 将PDF页面转换为图片使用Spire.PDF加载扫描的PDF文档然后使用PdfDocument.SaveAsImage()方法将文档的每一页保存为图片。执行OCR使用Spire.OCR识别每张图片中的文本。保存识别的文本将识别的文本保存到文本文件中。 实现代码 from spire.pdf import * from spire.ocr import * import io# 将PDF页面转换为图片 def convert_pdf_page_to_image(pdf, page_index):return pdf.SaveAsImage(page_index)# 从图片中识别文本 def recognize_text_from_image(imgName, language, model_path):# 初始化OCR扫描器并配置OCR模型的路径和文本识别语言scanner OcrScanner()configure_options ConfigureOptions()configure_options.Language languageconfigure_options.ModelPath model_pathscanner.ConfigureDependencies(configure_options)# 执行OCR并返回识别的文本scanner.Scan(imgName)data scanner.Text.ToString()return data# 加载扫描PDF文档 pdf PdfDocument() pdf.LoadFromFile(扫描.pdf)# 创建文本文件以保存提取的文本 with open(扫描PDF.txt, a, encodingutf-8) as writer:for page_index in range(pdf.Pages.Count):# 将PDF页面转换为图片image convert_pdf_page_to_image(pdf, page_index)imgNametoImage_str(page_index).pngimage.Save(imgName)# 从图片中识别文本recognized_text recognize_text_from_image(imgName, Chinese, rD:\OCR\win-x64)# 将识别的文本写入文本文件writer.write(fPage {page_index 1}:\n)writer.write(recognized_text)writer.write(\n\n) # 在页面之间添加两个换行符print(文本已成功保存到扫描PDF.txt。)注意事项 OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好不模糊、倾斜的图片可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同一些特定语言或字体可能识别效果较差。因此在识别完成后最好再人工校对一遍。 以上就是使用Python识别图片和扫描PDF中的文字的全部内容。感谢阅读
http://www.hkea.cn/news/14299864/

相关文章:

  • 连云港网站建设培训学校婚庆公司排名
  • 网站 模板 安装公司做了网站怎么做推广
  • 网站及新媒体平台建设报告easyui做的网站
  • 广州机械网站建设百度云网站建设教程视频
  • 怎样做自己的国外网站潍坊网站制作建设
  • 注册域名后怎么建网站传奇世界官网
  • 做网站要用什么编程语言装饰装修公司
  • 关于建设网站的图片晋城市住房城乡建设局网站
  • wordpress更换网站数据库wordpress 首页展示
  • 要怎么推广网站网站建设价格差别
  • 阜阳网站建设公司企业融资需求
  • 赢展网站建设网站域名需icp备案
  • 怎么查出这个网站是谁做的国外psd网页模板网站
  • 南通做企业网站南阳新闻最新消息
  • 基于jsp网站开发南昌网站建设58
  • 域名备案网站备案查询怎么参考已有网站做新站
  • 营销型企业网站特点wordpress移动端添加广告
  • 做网站需要什么技术自建站是属于什么模式
  • 小型旅游网站建设方案无锡企业网站制作公司
  • 沈阳单页网站制作网站建设的广告词
  • erp系统是干嘛的长沙seo工作室
  • 中文建网站电子商务网站开发与实训答案
  • 旅游网站系统哪个好哪里有网站设计学
  • 商品数据包网站开发wordpress 2012主题
  • 茂名建站模板搭建wordpress playyo
  • 动漫做的游戏 迅雷下载网站有哪些网页视频下载器破解版
  • 编程免费网站大宗商品交易平台
  • 临沂网站制作页面wordpress 评论点赞
  • 外贸网站外包做营销的网站推广
  • WordPress网站被恶意登录分析网站优缺点