随着中国加入WTO,金融领域的传统优势逐渐削弱,面对国外同行巨大的竞争压力,尽快实现金融电子化已迫在眉睫。在金融电子化的趋势下,信息技术手段已成为金融行业新的业务增长点。快捷、准确、高效地实现银行日常业务的信息化、缩短每笔业务的操作时间、保存客户原始信息并对其进行电子认证,所有这一切都可以通过日益完善的OCR技术加以解决。事实上,国外OCR技术已在金融、保险、税务等领域广为应用。在日本,金融行业中大量的存单、储单、保单以及户籍登记等都是通过OCR技术来实现的;在美国,大规模的人口普查、针对个人的信贷业务、个人所得税申报等也都采用OCR技术。目前,在我国随着OCR识别技术的发展,OCR技术正逐步向行业应用方向迈进。
OCR技术的广泛应用,创造了巨大的社会价值。随着扫描设备及技术的成熟,在金融、证券、保险、税务、数字化图书馆等领域推广、普及OCR技术已成为可能。而OCR识别表格技术以其高速、准确、低成本的特点,成为相关行业建立影像索引并替代人工工作的重要手段。报表业务电子化处理系统在提高银行经营管理水平、降低运营成本、对外开展电子商务等新业务、寻找银行业务新的增长点等方面都具有很大的促进作用。
北京汉王科技公司凭借在OCR识别研发的技术优势,结合金融领域的行业特点,开发出符合银行、证券行业应用的OCR产品,如手写体数字、汉字识别;印刷体汉字、数字、复杂表格理解;非表格内的数字(字符)植出等技术,经过市场的检验,日趋成熟,已达到行业应用的水平。并在哈尔滨、青岛、宁波、上海的工行系统中得到广泛的认可和应用。
一.OCR技术简介
1.OCR技术简介
OCR技术是光学字符识别的缩写(Optical Character Recognition)。OCR通过扫描、摄像等光学输入方式将汉字报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术,广泛应用于大量文字资料、材料、票据、档案卷宗、文案的录入和处理领域。适合于有大量录入、保存、查阅电子文档需求的个人或单位。
OCR工作原理如下图所示:
<!--1.gif-->
2. OCR技术包括:
*图像处理技术
*文本理解技术与还原技术
版面理解
文字图像的分割
版面的完全还原
*识别技术
印刷体:汉字、字母、数字、符号
手写体:汉字、字母、数字、符号
*签名鉴别:
*表格/票据处理技术
3.文本型OCR技术的工作流程:
扫描→图像处理→版面分析→识别→校对→版面还原→数据存储
4.表格/票据OCR的工作流程:
扫描→图像处理→表格定位→表格检出→识别→校对→表格还原→数据存储
5.评价OCR技术的标准
*一般文本OCR
识别率
识别速度
版面理解正确率
版面还原满意度
*表格/票据OCR
识别率或整张通过率
识别速度
二.OCR技术在金融领域的应用
1.金融票据处理: 银行系统存单、储单、支票、内部流转票据等
2.大批量表格/票据处理的工作流程:
表格整理→扫描→图像处理→表格定位→表格输出→识别→纵校→横校→版面还原→数据入库
3.票据识别中常遇到的问题
*噪声干扰: 背景、底纹、污渍等
*识别区域重叠:打印或填充部分与原文字部分重叠
*识别区域漂移:表格形变、套打错位等
*粘连字符分割:如手写体的分割
*易混淆字符的准确区分
通过定制、重新设计票据, 可解决大部分问题, 大幅度提高票据处理能力.
4.票据定制中的设计要点:
*设计一组/一对/多重定位标志
*识别部分四周留有一定空白, 尽量避免重叠情况
*避免手写部分出现粘连, 尽可能有利于分割(以框或线的形式分割手写部分)
*识别字符集尽量不用易混的字符对如:
O/0,b/6, B/8, g/9, l/1
5.严格管理,为票据识别创造好的条件:
*对用户进行规范填写的教育
*要有制度,操作员要严格把关, 不合格票据不能接收或传递
*要有制度,保证票据整洁不褶皱
四. 汉王OCR在金融行业的技术特点:
*表格识别可直接还原成PTF、PDF、HTML等格式文档;
*可以对图像嵌入文本、横排和竖排文本、表格文本进行自动版面分析;
*可以自动判断、拆分、识别和还原各种通用型印刷体表格,在表格理解上做出了令人满意的实用结果:能够自动分析文稿的版面布局;自动分栏并判断出标题、横栏、图像、表格等的相应属性,并判定识别顺序;能将识别结果还原成与扫描文稿的版面布局一致的新文本。表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字;可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人工劳动。
五.汉王OCR针对金融行业的解决方案
汉王公司通过与金融领域的专业公司合作,开发出一系列针对银行、税务系统的解决方案,并在各银行的实际应用中取得了良好的效果,有着良好的推广前景。
1.汉王表格自动录入系统
是将印刷或写在纸上的内容扫描后以图像形式录入计算机,经字符识别和版面理解后,以字符内码的形式输出或保存。
表格自动录入系统的专业特征
表格类型及识别效果
*打印表格:将内容打印填入空表
由于是识别印刷体,所以识别率很高,识别效果良好;特殊情况下(打印错位,严重时将A格内容填入了B格)会对识别及版面理解稍微有影响。
*普通手填表格:通过手写在空表格内填入内容
因无严格的填写规范,常出现填写出格、连笔、笔迹潦草等情况,识别效果相对较差。
*规范手填表格:手写填入内容
表格设计较规范,有指定填写内容的方格,表格四周有定位标志。有效解决了连笔、重叠等情况,识别率有很大提高。
表格版面理解
自动区分表格类型,正确理解各表格项的内容
识别率
*印刷体字符识别:在多种字体混合、图像质量较差的情况下(如图 像模糊、版面噪音干扰大)识别率高达99.95%
*手写体字符识别:主要识别数字、符号、字母;对非特定人的手写
体识别率达到99.2%,并可根据用户要求任意增加识别的符号
合作项目
*哈尔滨、青岛工商银行的票据录入
<!--4.jpg-->
*济南、珠海工商局的企业年检报表
2.汉王银行票据自动识别系统
是一套实现自动的票据输入与复核的系统
银行储蓄所的日常工作中有一项是要将客户的存取款信息输入计算机,支行以上级别的银行还需将从个人储蓄所收到的大量票据再输入计算机并进行复核。以前完成此项工作要靠人工输入,费时费力,现在应用这套系统便可快速高效地完成。
系统原理图
<!--5.gif-->
自动分类
自动区分票据类型,如自动区分存款单或取款单
识别范围
高精度地识别手写体大写数字
高精度地识别手写体小写数字及印刷体数字
高精度地识别手写体数字及印刷体数字混排票据
高速性
处理速度可达到每分钟60-80张票
<!--6.jpg-->
3. 银行票据光盘缩微系统
采用OCR识别技术,将OCR识别技术应用于银行票据光盘缩微系统,可以自动提取票据要素,可极大地减轻操作员的工作量,减少重复劳动,尤其是在与银行事后监督系统相结合后,可以替代原先的操作人员,来完成事后监督工作。由计算机自动识别票据上的日期、账号、金额等要素,通过银行事后监督系统与业务系统中的数据进行比较,完成传统的事后监督操作;配有印章验证系统后,自动将凭证图像中的印章与系统中预留的印鉴进行比较,完成印章的真伪识别。
汉王OCR技术已在信雅达公司的银行票据光盘缩微系统中被采用,取得了良好的应用效果。