下载此文档

身份识别技术地发展趋势.docx


文档分类:IT计算机 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
...
...
身份识别技术的开展趋势
目前随着电子商务和电子政务的开展,以及GSM,CPRS,CDM,A
WLAN等无线移动通信技术与相应业务的开展,身份认证的理论和技
术已经在不断成熟完善的根底上,出现了几个研究热点。
。本文之所
以采用正那么表达式来进展个人身份信息的筛选,一方面因为它简单易
用;另一方面那么是正那么表达式所表现出来的匹配能力。

通过正那么表达式匹配出来的电子的主题和内容存储为文本形式
的文档,由于所转化出来的文本文档都是非构造化的,不利于计算机
自动分析处理,因此需要对文本进展一定的预处理。利用基于向量空
间模型的方法来抽取特征词。其根本原理是把文档简化为以特征项的
权重为分量的向量表示:(W1,W2,⋯,Wn),其中Wi为第i个特征
项的权重。权重采用归一化的相对词频,其计算方法运用
TF-IDF公式:
其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d
中的词频,n为训练文本的总数,nt为训练文本集中出现t的文本数,
分母为归一化因子。经过以上处理和计算后可以将文档库表示为m*n
的词---文档矩阵(Term-DocumentMatrix):
公式(2)中,m为文档库中包含的所有不同词的个数;αij为由公式
(1)计算得到的W(t,d)表示第i个词在第j个文档中出现的权重。
不同的词对应矩阵A不同的一行,每个文档那么对应矩阵A的一列。通
过上述步骤生成的向量空间是一个高维向量空间,可以到达几万维甚
...
...
至几十万维。在这样一个高维特征空间上进展训练和分类存在一定的
问题和困难,因此需要进展降维处理,把特征维数压缩到与训练样本
个数相适应的地步。降维后可以删除噪音,防止过学习现象,提高分
类效率和分类精度。本文中选用互信息特征选择方法,算法根本思想
是,特征词t与类别C的互信息越大,说明特征t中包含的与类别有
关的鉴别信息就越多。算法根本过程如下:对于每个词,根据公式计
算词和类别的互信息量:
其中:
其中,P(t︱Ck)为t词在Ck中出现的比重,︱D︱为该类的训练文本
数,N(t,dI)
表示dI中t的词频,︱V︱表示总的词数,Ntj,diDi=1??=??表?示这
个文本类中所
有词的词频之和。P(t)表示词在所有训练文本中的比重。计算公式相
同,但︱D︱的含义为全体训练的文本数。根据公式(3)计算结果将取
值最大的前m个特征保存下来,实现降维。m值确实定一般采用先给
定一个初始值,然后根据实验测试和统计结果逐渐调整最终确定最正确
值。文本预处理后,每一个文本可以被表示为d=(w1,w2,⋯,wm),这
样就将n个文本转化为m维的单位向量。

分类是数据挖掘和机器学习领域的一个主要任务。分类要解决的问题
...
...
是将一个事件或对象归类,其特点是先对不同类别加以定义,并由预
先已分好类的样构成训练集,为每个类别作出准确的描述或建立分析
模型或挖掘出分类规那么,然后对其他数据库中的数据进展分类。用于
分类分析的技术很多,典型的方法有统计方法的贝叶斯分类#机器学
习的判定树归纳分类#神经网络的后向传播分类等。还有其他一些分

身份识别技术地发展趋势 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2024678321
  • 文件大小23 KB
  • 时间2022-03-05
最近更新