逆向-爬虫-简单图形验证码

MAC

1
2
3
4
# 准备
1. brew install tesseract
2. pip install pytesseract
3. 去往https://github.com/tesseract-ocr/tessdata下载中文数据集chi_sim.traineddata,把它放到这目录下: /usr/local/Cellar/tesseract/3.05.01/share/tessdata

使用:

1
2
3
4
5
6
7
import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

总结:验证码处理步骤

  1. 灰度化
  2. 二值化(涉及到找阀值 类间方差)
  3. 去干扰线
  4. 降噪 (高斯降噪)
  5. 切割
  6. 识别