联机藏文手写识别概述
吴健孙嫣
中国科学院软件研究所
基础软件国家工程研究中心
9/28/2018
1
摘要
准备工作
手写识别过程
联机藏文手写识别的预处理
联机藏文手写识别特征提取
聚类
实验方法和结果
9/28/2018
2
准备工作
藏文文字的组成
藏文的字符集编码标准
GB/T 16959-1997《信息技术藏文编码字符集基本集》
GB/T 20542-2006《信息技术藏文编码字符集扩充集A》
字母→字丁(字符)→音节→词→句子
9/28/2018
3
藏文字丁的书写特点
基本处理单元的选择
藏文文字的结构特点
相关国家标准
识别编码范围
《基本集》和《扩充集A》在内的910多个字丁,剔出掉了不常用的梵文字符
准备工作
9/28/2018
4
准备工作
联机藏文手写识别的研究基础
参考结构文字的联机特征提取方案还是拼音文字的联机特征提取方案?
藏文识别相对于汉字识别的特点
宽高比1:2
笔画方向性
圈、弧状结构
9/28/2018
5
联机藏文手写识别的预处理
预处理主要操作
线性归一化,减少字符大小的变异。
加入虚拟点,使字的每个笔画的点密度相同。
非线性归一化,减少笔划形状的变异(笔画太长、太短,笔画太集中等)。
重采样,减少点的间距的变异以及笔划上点的数目的变异。
点的平滑,去除笔画上的噪点。
9/28/2018
8
线性归一化操作的选取
公式及宽高比确定
进一步改进
联机藏文手写识别的预处理
9/28/2018
9
非线性归一化方案的选取
基于线密度
基于交叉距离
基于点密度
联机藏文手写识别的预处理
方案1:“初始方案”,使用基于点密度的非线性归一化操作;
方案2:基于线密度的非线性归一化操作。
方案3:基于基交叉距离的线密度非线性归一化操作。
方案4:改进后的基于点密度的非线性归一化操作。
9/28/2018
10
联机藏文手写识别概述ppt课件 来自淘豆网m.daumloan.com转载请标明出处.