...
...
身份识别技术的开展趋势
目前随着电子商务和电子政务的开展,以及GSM,CPRS,CDM,A
WLAN等无线移动通信技术与相应业务的开展,身份认证的理论和技
术已经在不断成熟完善的根底上,出现了几个研究热点。
。本文之所
以采用正那么表达式来进展个人身份信息的筛选,一方面因为它简单易
用;另一方面那么是正那么表达式所表现出来的匹配能力。
通过正那么表达式匹配出来的电子的主题和内容存储为文本形式
的文档,由于所转化出来的文本文档都是非构造化的,不利于计算机
自动分析处理,因此需要对文本进展一定的预处理。利用基于向量空
间模型的方法来抽取特征词。其根本原理是把文档简化为以特征项的
权重为分量的向量表示:(W1,W2,⋯,Wn),其中Wi为第i个特征
项的权重。权重采用归一化的相对词频,其计算方法运用
TF-IDF公式:
其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d
中的词频,n为训练文本的总数,nt为训练文本集中出现t的文本数,
分母为归一化因子。经过以上处理和计算后可以将文档库表示为m*n
的词---文档矩阵(Term-DocumentMatrix):
公式(2)中,m为文档库中包含的所有不同词的个数;αij为由公式
(1)计算得到的W(t,d)表示第i个词在第j个文档中出现的权重。
不同的词对应矩阵A不同的一行,每个文档那么对应矩阵A的一列。通
过上述步骤生成的向量空间是一个高维向量空间,可以到达几万维甚
...
...
至几十万维。在这样一个高维特征空间上进展训练和分类存在一定的
问题和困难,因此需要进展降维处理,把特征维数压缩到与训练样本
个数相适应的地步。降维后可以删除噪音,防止过学习现象,提高分
类效率和分类精度。本文中选用互信息特征选择方法,算法根本思想
是,特征词t与类别C的互信息越大,说明特征t中包含的与类别有
关的鉴别信息就越多。算法根本过程如下:对于每个词,根据公式计
算词和类别的互信息量:
其中:
其中,P(t︱Ck)为t词在Ck中出现的比重,︱D︱为该类的训练文本
数,N(t,dI)
表示dI中t的词频,︱V︱表示总的词数,Ntj,diDi=1??=??表?示这
个文本类中所
有词的词频之和。P(t)表示词在所有训练文本中的比重。计算公式相
同,但︱D︱的含义为全体训练的文本数。根据公式(3)计算结果将取
值最大的前m个特征保存下来,实现降维。m值确实定一般采用先给
定一个初始值,然后根据实验测试和统计结果逐渐调整最终确定最正确
值。文本预处理后,每一个文本可以被表示为d=(w1,w2,⋯,wm),这
样就将n个文本转化为m维的单位向量。
分类是数据挖掘和机器学习领域的一个主要任务。分类要解决的问题
...
...
是将一个事件或对象归类,其特点是先对不同类别加以定义,并由预
先已分好类的样构成训练集,为每个类别作出准确的描述或建立分析
模型或挖掘出分类规那么,然后对其他数据库中的数据进展分类。用于
分类分析的技术很多,典型的方法有统计方法的贝叶斯分类#机器学
习的判定树归纳分类#神经网络的后向传播分类等。还有其他一些分
身份识别技术地发展趋势 来自淘豆网m.daumloan.com转载请标明出处.