重庆网站推广人员,电脑咋建网站,手机上登录qq网页版,wordpress生成推广链接在前一篇文章基础上#xff0c;如何将报告图片中的文本解析出来#xff0c;最近研究了基于Tesseract的OCR方案#xff0c;Tesseract OCR是一个开源的OCR引擎#xff0c;主要结合开源的tesseract和pytesseract#xff0c;实现了jpg/png等格式图片文本识别#xff0c;供大家… 在前一篇文章基础上如何将报告图片中的文本解析出来最近研究了基于Tesseract的OCR方案Tesseract OCR是一个开源的OCR引擎主要结合开源的tesseract和pytesseract实现了jpg/png等格式图片文本识别供大家参考具体步骤和测试示例如下。
1.下载和安装tesseract和pytesseract
先安装pytesseract包安装命令pip3 install pytesseract 下载tesseract工具地址Home · UB-Mannheim/tesseract Wiki · GitHub 下载支持语言包(tessdata)地址https://github.com/tesseract-ocr/tessdata解压后拷贝到D:\tools\Tesseract-OCR目录下。
2.配置环境变量
配置环境到path变量D:\xxx\Tesseract-OCR\tessdata和D:\xxx\Tesseract-OCR 增加环境变量TESSDATA_PREFIXD:\xxx\Tesseract-OCR\tessdata查看Tesseract的配置运行情况tesseract -v 和 tesseract --list-langs
3.修改tesseract_cmd命令路径
修改pytesseract下的pytesseract.py文件将tesseract路径设置为如下路径具体如下tesseract_cmd D:\xxx\Tesseract-OCR\tesseract.exe
4.测试示例
# 利用tesseract实现图像的OCR通过OCR提取图像中的文本信息详见txt目录。
localFiles[d:\img\1.jpg]
image Image.open(Path(localFiles[i]))
ocr_text pytesseract.image_to_string(image)
ocrfilename localFiles[i].split(\\)[-1][:-4]
with open(os.path.join(output_folder, f{ocrfilename}.txt), w, encodingutf-8) as ocr_file: ocr_file.write(ocr_text)
print(str(i) ., ocrfilename, is completed by ocr)5.OCR识别结果
原始图片 识别文字结果