联机藏文手写识别概述
吴健孙嫣
中国科学院软件研究所
基础软件国家工程研究中心
10/9/2018
1
摘要
准备工作
手写识别过程
联机藏文手写识别的预处理
联机藏文手写识别特征提取
聚类
实验方法和结果
10/9/2018
2
准备工作
藏文文字的组成
藏文的字符集编码标准
GB/T 16959-1997《信息技术藏文编码字符集基本集》
GB/T 20542-2006《信息技术藏文编码字符集扩充集A》
字母→字丁(字符)→音节→词→句子
10/9/2018
3
藏文字丁的书写特点
基本处理单元的选择
藏文文字的结构特点
相关国家标准
识别编码范围
《基本集》和《扩充集A》在内的910多个字丁,剔出掉了不常用的梵文字符
准备工作
10/9/2018
4
准备工作
联机藏文手写识别的研究基础
参考结构文字的联机特征提取方案还是拼音文字的联机特征提取方案?
藏文识别相对于汉字识别的特点
宽高比1:2
笔画方向性
圈、弧状结构
10/9/2018
5
准备工作
藏文手写识别难点
易混淆字过多
印刷体相似字
手写体相似字
f41e
f37d
f42a
f3ae
f4eb
f5e1
f327
f497
f3b4
f49c
10/9/2018
6
联机藏文手写识别流程
识别基本流程
预处理了
对手写输入的字符在字形上进行修正,减少同类字符输入样本间字形上的变异。是保证特征提取和识别算法的有效性的前提。
特征提取
根据经过预处理后的联机手写字符,提取出相对于位移、大小、旋转、变形等具有不变形的模式特征。
预处理
特征提取
分割
分类
后处理
语料库
word
10/9/2018
7
联机藏文手写识别的预处理
预处理主要操作
线性归一化,减少字符大小的变异。
加入虚拟点,使字的每个笔画的点密度相同。
非线性归一化,减少笔划形状的变异(笔画太长、太短,笔画太集中等)。
重采样,减少点的间距的变异以及笔划上点的数目的变异。
点的平滑,去除笔画上的噪点。
10/9/2018
8
线性归一化操作的选取
公式及宽高比确定
进一步改进
联机藏文手写识别的预处理
10/9/2018
9
非线性归一化方案的选取
基于线密度
基于交叉距离
基于点密度
联机藏文手写识别的预处理
方案1:“初始方案”,使用基于点密度的非线性归一化操作;
方案2:基于线密度的非线性归一化操作。
方案3:基于基交叉距离的线密度非线性归一化操作。
方案4:改进后的基于点密度的非线性归一化操作。
10/9/2018
10
联机藏文手写识别概述 来自淘豆网m.daumloan.com转载请标明出处.