第1关:简单的验证码识别
本关任务:编写一个能简单识别验证码的小程序。
为了完成本关任务,你需要掌握:
- 使用
pytesseract库与PIL库解析图片; - 环境配置;
- 读取图片文本信息。
使用 pytesseract 库与 PIL 库解析图片
pytesseract 库可以从图像中提取文本。Tesseract 是一款由 Google 赞助的开源 OCR。 pytesseract 是 python 包装器,它为可执行文件提供了pythonic API。
环境配置
实验环境为 Linux,使用sudo apt install tesseract-ocr命令即可安装 tesseract-ocr。pytesseract 和 PIL 可直接使用 pip 进行安装。 以下是 tesseract-ocr 安装说明文档: Tesseract User Manual | tessdoc 环境配置过程中会遇到一些小问题,解决方法比较简单,同学们可以自行百度。
读取图片文本信息
call_tesseract
