[摘要] 本文提出了一种对喷码文字的识别方法,先通过对字体轮廓、网格、投影等特征提取,然后,根据统计的特征所形成的分类器,进行投票法判决,最后针对文字体轮廓特征特别接近,提取内沿的局部特征进行第二次判决。这种方法已经在工业应用中取得了很好的效果。
[关键词] 特征提取 字体识别
一.概述
当今在发票,车票及门票上的数字均由喷码产生,由于受喷码时墨量和光照的影响,能产生多种变形,给我们的识别造成了很多难点。
图1
二 我们的方法
1.切割和归一化
先对图像的文字部分进行横向和纵向切割,我们采用的是投影的方法,然后再对切割出来的部分,进行大小归一化,归一化的方法主要两种,一种是普通的大小缩放,我们采用的是另外的一种方法.我们先求出文字的质心。
式(1)中 为1时表示该像素点为黑像素,为0时表示该像素点为背景。
然后再计算水平和垂直方向的散度:
2. 特征的提取
我们分别提取了待识别字体的网格特征,水平和垂直方向的投影特征,以及字体的边缘特征,但是对于光照的差别比较大的情况,这些方法受到的影响是非常大的,因为在光照偏弱的情况下,象素点的个数明显减少,以及造成字体边缘的缺损。对于零这个字体。
为了避免由此带来的识别错误我们对先切出来的字体进行象素点比率的统计,假如当它小于一个特定的门限值得时候,对它实施开运算,大于门限值得时候进行闭运算。(c)为(a)图进行膨胀后的结果,(d)为(b)细化后的结果.对于所提取的特征值我们通过正规化相交的公式求得最后的分类器。
其中 为由字体算得特征相量, 是待识别字体算得相量。然后根据这三个分类器通过简单投票法形成多分类器进行判别,即有两个或两个以上形成决策A,认为A是合法的。若每个分类器形成的决策是不多的,我们就选定公式3中算的最大值作为分类器决策。假设三种特征的识别正确率分别为 p1,p2,p3.那么我们的方法在理论上能达到的正确识别率为:
P = p1*p2(1-p3)+p2*p3(1-p1)+p1*p3(1-p2)+p1*p2*p3
三 实验结果
运用我们上诉的方法,对图象进行识别,我们的算法能够给出正确的结果。
四结论
对我们的算法进行了一系列的测试和统计发现正确的识别率一般在99.9%以上,但是现在最大的问题是由于喷码文字边缘的不规则性,这就造成了 Q,0,O,D之间有着极大的相似性。对于这类相似文字,我们对识别结果又加了一些局部特征量的判断比如说内沿特征,来进一步提高识别率。
上海哲佑电子科技有限公司 陆峰
五参考文献
1.丁晓青 郭繁夏 汉字识别技术的发展 电子科技导报 1994.04
2.征荆 丁晓青 吴佑寿 郭繁夏 兼顾连笔和顺笔的联机手写汉字的识别方法 清华大学学报(自然科学版)1997.09
3.林晓帆 丁晓青 吴佑寿 基于置信度分析和多信息融合的高性能手写数字识别