基于 DNS 查询日志的互联网访
问模式分析
Analysis of Internet Access Pattern
based on the DNS Log
(申请清华大学工学硕士学位论文)
培 养 单 位 : 电子工程系
学 科 : 信息与通信工程
研 究 生 :季 成
指 导 教 师 : 袁坚副教授
二○○九年五月
摘 要
域名系统(DNS) 实现了 IP 地址和域名之间的转换,是互联网最关键的基础
设施和其他丰富应用的基础。几乎所有基于 IP 网络的信息通信服务都要通过域
名访问来定位相应的网络资源。因此,DNS 日志记载了用户访问域名的情况,
蕴藏了丰富的互联网访问信息,是研究互联网访问模式的一个新的途径。但是
由于 DNS 日志获取比较困难,而且其日志数据量巨大,目前对于 DNS 数据的
分析主要集中在对于 DNS 服务器本身的性能、配置等方面的研究,而对于 DNS
数据所包含的网络用户行为信息的研究还比较少。
本文借助中国互联网络信息中心负责管理的国家域名系统资源,采用了若
干 CN 节点的 DNS 服务器日志数据,对互联网访问模式进行了分析。主要的研
究工作包括:
首先,提出了域名规约的方法压缩数据,在保留有效数据的同时有效的减
小了数据量。由于 DNS 日志数量巨大(大约每天 200GB),所以在进行分析之
前进行预处理来减小数据量是十分有必要的。
其次,利用预处理之后的数据进行统计规律分析。得出域名的访问量遵从
类 Zipf 分布,大约 5%的网站就可以满足网络用户 90%以上的域名查询需求;用
户的查询量分布则呈现介于幂律和指数函数之间的广延指数分布,体现了网络
用户选择 DNS 递归服务器发出 CN 域名查询请求行为的确定性与随机性的共存
和结合。
最后,对 DNS 数据进行了聚类分析,提出了对 DNS 日志中 IP 和域名的特
征提取方案。分别采用 K-means 算法和 BIRCH 算法对 DNS 日志中的 IP 和域名
的特征矢量进行了聚类分析。结果表明 IP 地址发送域名查询请求的模式存在巨
大差异,呈现出三种主要模式。通过对域名被查询模式的分析,找到了真正体
现绝大多数用户网络访问需求的域名。研究成果可以用于对域名和解析请求实
现有效的分层管理,实现网络、计算资源的优化配置。
关键词:DNS 服务器 日志分析 访问模式 聚类
.CN 国家顶级域
I
Abstract
Domain Name System (DNS), which achieves the conversion between IP
addresses and domain names, is the infrastructure of the Internet and the basis
of other rich Internet applications. All IP-based Internet services use the
domain name system to locate the corresponding resources. Therefore, DNS
log recorded the domain names which are queried by users and contained a lot
of information. It is a new way to analyze the Internet access p
基于dns查询日志的互联网访问模式分析 来自淘豆网m.daumloan.com转载请标明出处.