最近,想做一个刷票的程序,有验证码,好在验证码不是很复杂,所以就想着能不能识别。开始想用svm来分类,但是不知道怎么回事,识别率达不到要求,可能中间的某个环节没有做好。听说神经网络也很好,但是本人对神经网络不怎么熟悉。
后来到网上查找资料的时候,有人用ocr来做验证码的识别,开始觉得有点杀鸡用牛刀的感觉,但是苦于没有其他的办法,只能一试。开始想用office的 ocr组件,但是发现根本就识别不了。后来发现开源的Tesseract比较好,但网站上提供的是c++的代码,个人对c++不是太熟。最后我找到了 Tesseract的.net版本,下载地址如下:
Tesseract源码下载:附件:
tesseract-2.04.rar Tessnet2源码下载:附件:
dotnet.rar 另外发现这个用法非常简单,注意还需要下载语言包,我这里识别的是纯字母的,所以就用英文的语言包了。另外为了提高验证率,还可以自己进行训练,由于我的需求比较简单,我就没有做这个步骤了,直接使用英文语言包了。
下面是我的关键测试代码:
- InitializeComponent();
- ocr = new tessnet2.Tesseract();
- ocr.SetVariable("tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ");
- ocr.Init(Application.StartupPath + @"\lng\eng", "eng", false);
- WebClient wc = new WebClient();
- byte[] oimg = wc.DownloadData("some url"); // 这里我地址做了隐藏,自己修改成要识别的地址吧
- Bitmap bp = new Bitmap(new MemoryStream(oimg), true);
- pictureBox1.Image = bp;
- bp = ImageProcess.RemoveGreen(bp);
- bp = ImageProcess.ToBW(bp);
- pictureBox2.Image = bp;
- List<tessnet2.Word> result = ocr.DoOCR(bp, Rectangle.Empty);
- string txt = "";
- foreach (tessnet2.Word word in result)
- {
- txt += word.Text;
- }
- textBox1.Text = txt;
复制代码另外,还有一个问题,我这里先对图像进行了简单的预处理,去除干扰,转换成二值图像。不知道大家还有没有更好的方法。我的这种方法,对于简单的验证码,效果还不错。(文/
小橋流水)