使用tesserocr库识别图形验证码

简介

  • Tesseract-OCR, 一款由Google维护的开源OCR引擎, 可用于图像识别
  • tesserocr, Python的OCR识别库, 基于Tesseract-OCR做的Python API封装

安装Tesseract-OCR

使用Tesseract-OCR识别验证码

phototest.png

tesseract phototest.png result

result.png

使用conda安装tesserocr

# conda install -c simonflueckiger tesserocr, 默认版本会出错
conda install -c simonflueckiger/label/tesseract-4.0.0-master tesserocr

添加系统环境变量(改为Tesseract-OCR的安装路径)

TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata\

使用tesserocr库识别验证码

>>> import tesserocr
>>> text = tesserocr.file_to_text('phototest.png')
>>> print(text)
This is a lot of 12 point text to test the
cor code and see if it works on all types
of file format.

The quick brown dog jumped over the
lazy fox. The quick brown dog jumped
over the lazy fox. The quick brown dog
jumped over the lazy fox. The quick
brown dog jumped over the lazy fox.

GitHub仓库

sirfz/tesserocr


 Previous
PostgreSQL Windows 安装 PostgreSQL Windows 安装
下载官网地址 服务端 创建数据库集群 initdb -D "K:\PostgreSQL\data" 启动数据库服务器 pg_ctl -D ^"K^:^\PostgreSQL^\data^" -l logfile start 注册Wi
2019-10-21
Next 
Python 项目开发实战 Python 项目开发实战
Python 开发环境依赖管理工具 pip conda poetry 项目模板工具 cookiecutter 命令行工具 click 日志管理 loguru 版本管理 Git 编辑器和DEBUG工具 Vim PyCha
2019-09-21
  TOC