下载此文档

校园网日志挖掘平台研究.doc


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
校园网日志挖掘平台研究
摘要:随着学校信息化建设水平的不断提升,校园网内大量的数据信息不停地产生并囤积在服务器中。如何从这些数据里提取出有用的知识,已经成为计算机技术研究的热门课题。
关键词:校园网日志研究计算机
中图分类号: 文献标识码:A 文章编号:1674-098X(2013)02(a)-0025-01
1 校园网日志挖掘平台研究目的及意义
目前大部分学校的日志信息仅储存后用作突发事件取证留档,没有对其进行进一步的分析研究,信息管理人员认为此类数据信息一旦超过有效期(如3个月)就没有任何意义,可以进行删除用来回收存储空间。其实海量历史数据中就包括了校园网络使用日志,日志内容涉及用户使用网络的各个方面,包含时间、人员、目的、方法等,为数据挖掘工作提供了坚实的基础。通过校园网日志挖掘平台能够回答管理者最关心的问题:不同的用户分别在浏览什么网站,关心什么问题;校园网各个页面之间访问关联关系、频率、流量等。通过挖掘研究,能够得到用户的使用频率、使用目的、使用方法等,对网络调整及规划具有一定的辅助决策作用。校园网日志较普通网络日志有较为明显优势:在有设备支持的情况下,可以根据用户使用IP查询到用户基本对应关系(如学/工号),大大提高了在数据挖掘算法在用户识别环节的分析能力。以上海大学校园网为例,系统通过自行开发的IP地址管理程序以及网络出口审计程序,能够基本准确的匹配到使用用户信息,并且可以再借由上海大学自有的信息管理系统以及各类系统接口,通过以学/工号为主键的信息反馈到学校其他部门进行专项研究,由平台提供统一数据接口,直接提供给学校其他有类似需求的部门进行个性化在线分析,为学校各类决策支持提供数据依托,实现横向数据挖掘,这也是本研究未来的发展方向。
2 校园网日志挖掘平台研究初探
数据采集及预处理
校园网日志分析平台的实验数据来源主要来自于校内出口计费系统上学生上网行为日志,以及上海大学子新开发的IP申请系统中IP所对应的个人信息。由于系统设计或多系统兼容性问题,存在采集数据有噪声、不完整和不一致的情况,必须进行数据清洗,提高挖掘过程的精度和性能。(1)缺失值。经过对几个数据来源系统的数据进行分析,得出结论:在实际运行过程中数值缺失的情况相对较少,因为上海大学用户上网全部采用实名认证的登录方式,只有非常陈旧的数据无法在IP系统中关联,并且主要集中在多系统之间对应数据不完整的情况下,该文研究中将直接舍弃这些存在数据缺失的条目,因为根据大致统计可以看出,缺失条目与附近的数据差异并不大,舍弃这些条目对后期分析不会造成太大的影响。(2)噪声数据。该文采集数据中的噪声主要来自于学校内用户访问外网或进行某些网上操作时必须要经过的某些特殊路径,一种情况是在某些特殊时期对固定网站的频繁访问,如选课期间以及考试期间,大量频繁访问固定网站会对该时期用户真实访问兴趣点造成影响,另一种情况则是由于用户在按入终端上安装的某些软件会自动与服务器连接通信,包括自动下载等功能,也会造成大量频繁访问,因此需要针对以上两种特殊现象进行去噪处理。本研究中的出具解决方法是将此类网站日志暂时屏蔽,不纳入到分析样本中,以此来消除对最终数据挖掘结果的影响。
校园网日志统计与分析
环境开发日志统计分析软件,按照日、周、月、学期对校

校园网日志挖掘平台研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人redkcbx064
  • 文件大小0 KB
  • 时间2015-08-27