1 数据挖掘技术在中医药研究中的应用随着医学机构积累的数据越来越多, 促进了医学信息包括中医药信息的数字化;如何利用海量信息为防控疾病提供科学依据, 总结优化各种诊治方案,已引起业内专家的高度关注。于是数据挖掘技术在中医药研究被日益重视, 它将有力促进中医药的现代化进程。 1 数据挖掘的概念、步骤及常用方法 数据挖掘概念、步骤数据挖掘( Data mining , DM ) 即数据库中的知识发现, 是从大型数据库的海量数据中提取人们感兴趣的知识, 这些知识是隐藏的、事先未知的、潜在有用的信息, 挖掘的知识表现为概念、规则、规律、模式等形式[1]。数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果[2]。挖掘步骤大致有:问题定义、数据提取、数据预处理、数据挖掘、知识评估、结果应用这六步。 数据挖掘常用方法 2 描述统计数据总结的目的是对数据进行从低层次抽象、浓缩到高层次, 得出它的紧凑描述。最简单的数据总结方法是描述统计, 它包括平均数、中位数、分位数等, 它常和统计图配合应用。 关联规则关联规则从本质上讲是条件概率,即当 A 发生时、B 同时出现的概率有多大?只要 B离 50 %较远就有意义。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性, 就称为关联。关联包括简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时我们并不知道数据库中数据的关联函数, 即使知道也不确定。因此关联分析生成的规则带有可信度。 分类和聚类这是最常用的技术。分类方法主要有: 回归、决策树、神经网络。分类分析在数据挖掘中是一项重要任务。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。聚类是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集。聚类要解决的就是实现满足这种要求的类的聚合。在进行聚类前, 这些类别是潜在的, 可分割的 3 类的个数(聚类数)也是未知的。聚类大致分为统计方法、机器学习方法、神经网络方法和面向数据库的方法等。 偏差检测数据库中的数据可能有一些异常记录,检测这些偏差很有意义。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。 2 中医病历中医学数据挖掘的特点目前中医病历中采集的中医学信息具有如下特点。 症状的模糊性中医学对疾病的诊断是通过望、闻、问、切的四诊合参, 获取有用信息, 再结合医生的经验, 对疾病做出诊断。症状的模糊性不仅表现在获得信息的形式多样, 而且因中医症状存在着一症多名, 或多症一名的现象, 因此不同医生即使对同样的症状,可能会用不同的文字加以描述,比如对“患者不欲进食”的记录,可能会有纳差、食欲不振、纳呆等的不同。这种模糊性模式加大了中医学数据挖掘的难度。 症状的不完整性病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映出来, 表现为医 4 学信息的不完全性。同时, 许多医学信息的表达、记录本身就具有不确定和模糊性的特点[3], 这方面在中医症状未做出标准量化方法并推行应用之前, 尤为突出。疾病信息体现的客观不完整和描述疾病的主观不确切, 形成了中医病历中医学信息的不完整性。 证候的复杂性著名的王永炎院士指出了证候具有动态时空、内实外虚、多维界面的特点, 简明扼要的描述了证候的复杂性。中医证候的复杂性给数据挖掘增加了难度, 但这也恰好是数据挖掘发挥效力的用武之地。 治疗信息的个体化特性中医治病之本是辨证论治, 体现在“三因治宜”、“同病异治、异病同治”等方面。即使针对同一疾病相同的证,医生的处方用药也可能会有差异。这种个体化的治疗, 充分体现了中医治病的精髓, 而其中所蕴涵的深奥哲理和规律,用一般的研究方法难以全面发掘。数据挖掘在这方面很可能会有很高的应用价值。 挖掘过程的复杂性中医药领域中的数据属性有离散型的, 也有连续型和混合型的, 对这些数据的噪声处理等预处理相当复杂, 挖掘过程还需要人机交互、多次反复, 其中任何一个环节都不能缺少专业人员。只有靠中医药专家的引 5 导, 针对具体问题, 选择合理的挖掘方法, 才能挖掘出真正有价值的知识。在中医学数据挖掘中,应针对上述数据特点和挖掘目标, 结合运用不同的挖掘方法, 对非线性、不完全的信息进行智能处理,发挥各自的技术及其整合优势。 3 数据挖掘在中医药研究中的应用近年来, 数据挖掘技术在中医药研究中已得到应用。有学者认为中医药数据挖掘是中医药现代化研究的重要组成部分[ 4]。 中医药信息化研究姚氏等[ 5 ]综合文献指出对中医药理论
数据挖掘技术在中医药研究中的应用 来自淘豆网m.daumloan.com转载请标明出处.