当前位置: 首页 > news >正文

cms搭建网站山东省住房和城乡建设厅电话号码

cms搭建网站,山东省住房和城乡建设厅电话号码,wordpress粉丝主题,新昌县建设局网站目录 工具与设置 Python 识别图片中的文字 Python 识别图片中的文字及其坐标位置 Python 识别扫描PDF中的文字 注意事项 在处理扫描的PDF和图片时#xff0c;文字信息往往无法直接编辑、搜索或复制#xff0c;这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费…目录 工具与设置 Python 识别图片中的文字 Python 识别图片中的文字及其坐标位置 Python 识别扫描PDF中的文字 注意事项 在处理扫描的PDF和图片时文字信息往往无法直接编辑、搜索或复制这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费力还容易出错。光学字符识别OCR技术能够将图片中的文字转换为可编辑文本使信息提取和处理更加高效。如今OCR已广泛应用于扫描文件的转换、数字化文档的整理、以及自动化数据输入等领域。本文将介绍如何使用Python及相关OCR库实现对图片和扫描PDF中文字的识别。 工具与设置 要在Python中实现从图片和扫描PDF中提取文本我们需要选择一个适当的OCR库。本文所选择的库是Spire.OCR for Python。该库支持多种语言包括英语、法语、德语、简体中文、繁体中文、日语、韩语等。在使用该库之前我们需要完成以下两个步骤 步骤1安装Spire.OCR for Python 在终端中运行以下命令安装Spire.OCR for Python pip install Spire.OCR 步骤2下载OCR模型 Spire.OCR for Python提供了支持Windows64位、Linux64位和MacOS10.15及以上操作系统的三种模型。我们需要根据自己的系统下载适合的模型 Win x64Linux x64Mac 10.15及以上 下载完成后将它解压并保存到特定的目录下。 完成以上两个步骤后我们就可以使用该库实现识别图片和扫描PDF中的文字。 Python 识别图片中的文字 从图片中提取文本的过程比较简单。首先需要配置 OCR 扫描器的相关设置例如文本识别语言和OCR模型的路径然后对图片进行扫描最后将识别的文字保存为文本文件。 以下是从图片中提取文本的关键步骤 初始化 OCR 扫描器创建 OcrScanner 对象。配置 OCR 设置通过 OcrScanner 对象的 ConfigureDependencies 方法设置 OCR 模型的路径和文本识别语言。扫描图片使用 OcrScanner 对象的 Scan() 方法从图片中识别文本。保存文本获取识别出的文本并保存为文本文件。 实现代码 from spire.ocr import *# 初始化OcrScanner对象 scanner OcrScanner()# 配置OCR设置文本识别语言和OCR模型路径 # 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等 configureOptions ConfigureOptions() configureOptions.ModelPath rD:\OCR\win-x64 configureOptions.Language Chinese scanner.ConfigureDependencies(configureOptions)# 扫描图片 scanner.Scan(r测试.png)# 获取识别的文本 text scanner.Text.ToString() \n# 将文本保存到文本文件 with open(输出.txt, a, encodingutf-8) as file: file.write(text \n)原始图片和识别结果 Python 识别图片中的文字及其坐标位置 有时除了识别文本外还需要获取文本在图片中的坐标位置。Spire.OCR也支持提取这些信息。 以下是从图片中识别文本并获取其坐标位置的关键步骤 初始化OCR扫描器创建OcrScanner对象。配置OCR设置通过OcrScanner对象的ConfigureDependencies方法设置OCR模型的路径和文本识别语言。扫描图片使用OcrScanner 对象的Scan() 方法从图片中识别文本。获取边框坐标遍历识别的文本中的文本块获取每个文本块的边框信息x, y坐标及其宽度和高度。保存文本和坐标将文本及其坐标保存到文本文件中。 实现代码 from spire.ocr import *# 初始化OcrScanner对象 scanner OcrScanner()# 配置OCR设置文本识别语言和OCR模型路径 # 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等 configureOptions ConfigureOptions() configureOptions.ModelPath rD:\OCR\win-x64 configureOptions.Language Chinese scanner.ConfigureDependencies(configureOptions)# 扫描图片 scanner.Scan(r测试.png)# 遍历识别的文本中的文本块提取每个文本块的文本和坐标位置等信息 text for block in scanner.Text.Blocks:rectangle block.Boxpositions f{block.Text} - x: {rectangle.X}, y: {rectangle.Y}, w: {rectangle.Width}, h: {rectangle.Height}text positions \n# 将文本和坐标保存到文本文件 with open(图片文字及坐标.txt, a, encodingutf-8) as file:file.write(text \n)Python 识别扫描PDF中的文字 对于扫描的PDF文档需先将每一页转换为图片格式。可以借助Spire.PDF for Python库来实现这一点。将PDF页面转换为图片后即可对每张图片执行 OCR 处理。 在使用以下代码之前请先通过以下命令安装Spire.PDF pip install Spire.PDF 以下是从扫描PDF中提取文本的关键步骤 将PDF页面转换为图片使用Spire.PDF加载扫描的PDF文档然后使用PdfDocument.SaveAsImage()方法将文档的每一页保存为图片。执行OCR使用Spire.OCR识别每张图片中的文本。保存识别的文本将识别的文本保存到文本文件中。 实现代码 from spire.pdf import * from spire.ocr import * import io# 将PDF页面转换为图片 def convert_pdf_page_to_image(pdf, page_index):return pdf.SaveAsImage(page_index)# 从图片中识别文本 def recognize_text_from_image(imgName, language, model_path):# 初始化OCR扫描器并配置OCR模型的路径和文本识别语言scanner OcrScanner()configure_options ConfigureOptions()configure_options.Language languageconfigure_options.ModelPath model_pathscanner.ConfigureDependencies(configure_options)# 执行OCR并返回识别的文本scanner.Scan(imgName)data scanner.Text.ToString()return data# 加载扫描PDF文档 pdf PdfDocument() pdf.LoadFromFile(扫描.pdf)# 创建文本文件以保存提取的文本 with open(扫描PDF.txt, a, encodingutf-8) as writer:for page_index in range(pdf.Pages.Count):# 将PDF页面转换为图片image convert_pdf_page_to_image(pdf, page_index)imgNametoImage_str(page_index).pngimage.Save(imgName)# 从图片中识别文本recognized_text recognize_text_from_image(imgName, Chinese, rD:\OCR\win-x64)# 将识别的文本写入文本文件writer.write(fPage {page_index 1}:\n)writer.write(recognized_text)writer.write(\n\n) # 在页面之间添加两个换行符print(文本已成功保存到扫描PDF.txt。)注意事项 OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好不模糊、倾斜的图片可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同一些特定语言或字体可能识别效果较差。因此在识别完成后最好再人工校对一遍。 以上就是使用Python识别图片和扫描PDF中的文字的全部内容。感谢阅读
http://www.hkea.cn/news/14492216/

相关文章:

  • 网站建设与营销保山网站建设报价
  • 阿里巴巴网站建设代理广西网站建设设计
  • 东阳网站建设方案汽车价格网
  • 做网站免费吗公众号文章制作
  • 网站设计的技巧盐城专业网站建设哪家好
  • 衡水做网站服务商一个可以看qq空间的网站
  • 怎么建立个人网站定制网站 多少钱
  • 网站如何做团购深圳建站模板公司
  • dede网站优化做dw网站图片怎么下载地址
  • 在线做爰视频网站高等院校网站建设方案
  • 画册做的比较好的网站网站备案在哪里查询
  • 网站例子大全IT男网站建设
  • 牡丹菏泽网站建设移动软件管理的应用场景
  • 不符合网站外链建设原则的是汽车汽配网站建设
  • 网站建设合同严瑾手机端网页设计软件
  • flash 网站 模板交通建设监理协会网站
  • 哪里有网站建设流程phpnow超详细WordPress
  • 有后台网站怎么做公司网站开发 建设
  • 天津市建设银行网站怎样制作自己的app
  • 宁波住房和城乡建设局网站网站界面宽
  • 深圳网咯鸟网站建设公司怎么样百度竞价代理公司
  • 网站开发设计大概多少费用小微企业2022年税收优惠政策
  • 手机网站优化技巧南昌网站设计案例
  • 厦门正规网站建设多少建设银行网站储蓄账户查询密码
  • 建设一个网站的硬件要求吗珠宝 网站模板
  • 网站分析流程北京知名的品牌设计公司
  • 做淘客网站哪个cms好四川建设网项目招标公告
  • 上海做网站建设的公司软件开发培训中心
  • 东方商易网站开发wordpress 站群系统
  • 成都网站设计学校网站 建设 培训 视频