下载此文档

基于贝叶斯方法的缺失数据补全研究.pdf


文档分类:论文 | 页数:约52页 举报非法文档有奖
1/52
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/52 下载此文档
文档列表 文档介绍
Research on Improved Bayesian Methods for
Replacing Missing Data




A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Degree of Master of Engineering
By
Shen Xue

Supervised by Associate Prof. Li Xueming
Major: Computer Software and Theory


College puter Science of
Chongqing University, Chongqing, China
April, 2011
重庆大学硕士学位论文中文摘要

摘要

随着信息技术的高速发展和人们获得数据途径的多样化,企业积累的数据飞
速激增。由于这些数据里面隐含着很多有用的信息,可以通过数据挖掘来进一步
的分析和充分的利用。但是很多的研究方法和模型都是基于理想的而非现实的数
据集。各种原因导致了我们收集的数据存在很多质量问题,其中较为棘手的为数
据缺失的问题。
目前国内外的缺失数据的补全方法主要有以下几种:删除法、常量补全法、
统计学补全法、简单值补全法和复杂估算值补全法。其中复杂值补全法因其最大
程度上利用了当前已知数据,帮助预测缺失数据,从而获得了较好的补全精度。
本文着重研究了复杂值补全法中广泛应用的朴素贝叶斯补全缺失数据的方法。但
是朴素贝叶斯方法因对数据属性间做了独立假设,摈弃了数据属性间的关联性,
导致了预测值不准确,形成了误差。
本文针对朴素贝叶斯方法在数据补全方面固有的缺点,对其进行了改进,提
出了含有修正因子的双尺度贝叶斯公式,并从理论上分析了双尺度贝叶斯公式可
以很好的适应一般属性间的三种关联形式。双尺度贝叶斯算法主要针对分类数据,
利用缺失属性值的后验概率和修正因子对缺失数据进行预测,然后使用最大概率
填充 MaxPost 和概率分布填充 PropPost 进行具体的数据补全。
最后本文选用了 UCI 的 4 个不同领域不同大小的实验数据集,进行了实验验
证。实验通过三个评价指标验证了本文提出的双尺度贝叶斯补全方法比朴素贝叶
斯补全方法更加准确和有效。

关键词:分类数据,缺失数据,双尺度贝叶斯,修正因子
I
重庆大学硕士学位论文英文摘要

ABSTRACT

Nowadays the scale of dataset in various sectors is facing an explosive increase due
to the rapid development of information technology and data acquisition method. By
using data mining, some potential but valuable information can be found from raw data
for further analysis and utilization. The original data usually have some different types
of quality problem while most researches and models are based on ideal data but not
real. And the missing data is one of the thorny quality problems pressing for solution.
Currently, the main solutions of data missing problem include: deletion, constant
replacement, statistics replacement, simple value replacement plex value
replacement. Comparing with other methods, plex value replacement usually
has a more pletion result because the predictive value is calculated by
combining with kn

基于贝叶斯方法的缺失数据补全研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数52
  • 收藏数0 收藏
  • 顶次数0
  • 上传人cxmckate1
  • 文件大小0 KB
  • 时间2015-09-03