论文演示全国数学建模竞赛优秀获奖论文基于多特征提取的中文识别算法课题研究意义基于多特征提取的识别算法原理算法实现流程结果分析课题研究的意义随着计算机技术的发展和普及,传统的汉字编码输入方案已经不能满足大众化的需求,汉字输入成为我国计算机科学发展的瓶颈问题,,如手机、PDA等,手写汉字识别技术在这些产品中的应用越来越多,由于硬件资源的限制,电子厂商迫切需要一个简单易行而效果也能满足要求的识别算法。基于多特征提取的识别算法原理算法原理综述汉字是一种结构文字,所以在进行手写汉字识别时,笔划信息一定要充分利用起来,同时我们知道,单纯的笔划特征不足以区分所有汉字,现在我们考虑将输入汉字图象分别从笔划和相素角度做两次分类识别,以下分别称为粗分类和细分类。在粗分类阶段,我们先根据基于笔划的识别算法把范围缩小,即根据笔划数和笔划顺序从字库选出几个可能的汉字,至于怎样从这几个汉字中找出正确的对应字符就由细分类部分完成。基于多特征提取的识别算法原理(续)在细分类阶段,可以根据网格划分的算法对粗分类后的若干汉字进行识别,由于范围已经很小,所以该步骤不需要划分太细,通常情况下做3*3分区即可取得理想结果。注意,用该方法要对汉字图象做规范化处理,我们可以稍做改进,把每区的黑色相素点数改为此数与汉字总相素点数的比值,这样就可以排除汉字大小不一的干扰。基于多特征提取的识别算法原理(续)预处理由于下一步进行的粗分类要以笔划为特征,所以在预处理阶段要完成消除噪声点以便判断笔划的工作,具体来讲主要完成以下工作:(1)从输入图像得到点序列。(2)为了消除起笔和落笔抖动,删除点序列两端的若干点,消除点序列中间的异常点。(3)记录图像的最大、最小x,y坐标,以便在细分类时使用。基于多特征提取的识别算法原理(续)粗分类在介绍粗分类要完成的工作前,先要了解该算法对笔划的分类和笔划相似度的定义。下图是二维平面上方向笔划的义。笔划的划分:横,用数字1标识,方向为1;竖,用数字2标识,方向为3;撇,用数字3标识,方向为4;捺,用数字4标识,方向为2;折,用数字5标识,有至少两个方向;基于多特征提取的识别算法原理(续)为了知道输入的一笔是哪种笔划,还要从点序列入手求每一点的方向码,然后消除噪声方向得到笔划码。下面这组式子用来求的方向数。若point[a+2].y=point[a].y且point[a+2].x>point[a].x,方向1。若point[a+2].y=point[a].y且point[a+2].x<point[a].x,方向5。若point[a+2].x=point[a].x且point[a+2].y>point[a].y,方向3。若point[a+2].x=point[a].x且point[a+2].y<point[a].y,方向7。若point[a+2].x>point[a].x且point[a+2].y>point[a].y,方向2。若point[a+2].x>point[a].x且point[a+2].y<point[a].y,方向8。若point[a+2].x<point[a].x且point[a+2].y>point[a].y,方向4。若point[a+2].x<point[a].x且point[a+2].y<point[a].y,方向6。基于多特征提取的识别算法原理(续)从上一部长得到每点方向后,消除一些异常的方向(即和附近点方向都不一样的点),然后可根据多数点的方向判断该笔划数,粗分类时距离定义如下:距离d=其中是定义的笔划相似度,如下表。基于多特征提取的识别算法原理(续)粗分类后,要对汉字图像进行细分类进行匹配识别,该过程采用划分网格的方法,由于粗分类阶段已经将范围缩小,所以该阶段只需采用3*,统计各区相素点数,为了归一化,还要计算出各区相素点与图像总相素点数的比值,如下图:00001062311**********.
论文演示全国数学建模竞赛优秀获奖论文 来自淘豆网m.daumloan.com转载请标明出处.