目录
生活中,我们在登录微博,邮箱的时候,常常会碰到验证码。在工作时,如果想要爬取一些数据,也会碰到验证码的阻碍。本次试验将带领大家认识验证码的一些特性,并利用 Python 中的 pillow 库完成对验证码的破解。
环境配置
- Python 2.7
- Pillow 模块
有个问题就是python2.7目前只能让使用到2020年,现在再利用2.7下载好多东西都会报错,也该是时候更新到python3.7了,本文还是依赖于2.7的环境。
识别验证码的代码下载地址:python_captcha_jb51.rar
安装 pillow(PIL)库
sudo apt-get update sudo apt-get install python-dev libtiff5-dev libjpeg8-dev zlib1g-dev libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk sudo pip2 install pillow
识别过程
将验证码文件python_captcha下载到运行目录下,解压后,在 python_captcha 目录新建 crack.py 文件,进行编辑。
#-*- coding:utf8 -*- from PIL import Image im = Image.open("captcha.gif") #(将图片转换为8位像素模式) im.convert("P") # 打印颜色直方图 print im.histogram()
输出:
颜色直方图的每一位数字都代表了在图片中含有对应位的颜色的像素的数量。
每个像素点可表现 256 种颜色,你会发现白点是最多(白色序号 255 的位置,也就是最后一位,可以看到,有 625 个白色像素)。红像素在序号 200 左右,我们可以通过排序,得到有用的颜色。
his = im.histogram() values = {} for i in range(256): values[i] = his[i] for j,k in sorted(values.items(),key=lambda x:x[1],reverse = True)[:10]: print j, k
输出:
我们得到了图片中最多的 10 种颜色,其中 220 与 227 才是我们需要的红色和灰色,可以通过这一讯息构造一种黑白二值图片。
#-*- coding:utf8 -*- from PIL import Image im = Image.open("captcha.gif") im.convert("P") im2 = Image.new("P",im.size,255) for x in range(im.size[1]): for y in range(im.size[0]): pix = im.getpixel((y,x)) if pix == 220 or pix == 227: # these are the numbers to get im2.putpixel((y,x),0) im2.show()
输出:
局限及遇到的问题
#-*- coding:utf8 -*-
此行命令流在windows环境下运行会报错,具体原因可参考python(2)中文编码乱码问题;
该命令流有很大的局限性,识别的动态代买也只有此类: