数据挖掘技术在中医医案的应用研究
仲芳 杨巍 赵翀 郭晶磊 摘要:医案是历代医家临床实践经验及学术思想的载体,伴随大数据时代的到来及数据挖掘技术的兴起,数据挖掘被广泛地应用于中医药领域,成为发掘与整理中医医案的实用工具。本文从中分析
频数统计分析方法简单、基础,在最初的医案分析统计中起到非常重要的作用,可直观地看出频数分布、集中趋势、离散趋势等。薛道金等[8]检索出与中医治疗脑瘤经验及验案相关文献60篇,频数分析认为用药多温性,苦、咸,归肝、脾、肾经,推测脑瘤发病多与痰湿、瘀、虚或肝风有关。徐艳等[9]研究了1949-2015年112位名老中医治疗黄疸医案,结果发现,黄疸病因病机的认识从“湿邪为患”向“瘀血致黄”变化,其治法从以祛湿为先到采用寒温并用及攻补兼施、注重活血化瘀药运用等。部爱贤等[10]收集了100篇肺癌医案文献,分析认为肺癌典型症状为咳嗽、胸痛、咳血,以痰、毒、瘀及三者交織的邪气为主,正气虚以气虚、阴虚、气阴两虚为主,时有虚实夹杂。
关联分析
关联分析是一种简单、实用的分析技术,在信息载体中,查找存在于项目集合、对象集合之间的频繁模式、关联、相关性或因果结构,从大量数据中发现2个或多个变量之间的相关联系。邓庆平等[11]通过收集51篇当代名老中医治疗肺结核医案进行关联分析,提出治疗阴虚内热、肺液不足型肺结核的基本方。郑丹文等[12]通过对当代名老中医治疗流行性感冒医案72则进行分析,发现《中医内科常见病诊疗指南》中未提及的治疗方法包括暑邪用香薷,发热症状重则用黄芩、柴胡,痰多色黄则加黄芩、天花粉等。陈婷婷等[13]选取40部古籍医案,整理分析中国古代治疗抑郁症使用的150首方剂,发现药物的主要关联组合为半夏配生姜、茯苓,苍术配栀子、香附,与《丹溪心法》的“越鞠丸治六般郁,气血痰火食湿困”相吻合。 回归分析
回归分析是指确定2种或2种以上变量间相互依赖的定量关系的一种统计方法,它可表明自变量和因变量间的显著关系,还可表明多个自变量对1个因变量的影响强度,可实现预测事物发展趋势。主要的回归分析方法包括线性回归、非线性回归、Logistic回归、回归树、人工神经网络等[7]。张定祺等[14]检索获得63篇文献,通过用药频次统计和Logistic多元逐步回归,分析中医治疗耳鸣用药规律,为临床治疗耳鸣用药提供参考。张平等[15]对140例轻、中度稳定期慢性阻塞性肺疾病(COPD)患者通过多分类Logistic回归分析,观察治疗组和对照组患者治疗前后临床症状及生存质量评分变化,发现健脾化痰方配合温灸中脘治疗肺脾气虚型轻、中度稳定期COPD具有显著疗效。唐黎群等[16]对120例正常高值血压人群和对照组120例正常血压人群进行多元回归分析,正常高值血压人群中医体质类型分为平和型、气虚型、阴虚型、阳虚型。
聚类分析
聚类分析是依据研究对象的特征对其进行分类,减少研究对象数目的方法。它可作为一个独立的工具获得数据的分布状况,也可作为其他算法的预处理步骤。欧阳帅领等[17]对100例老年期抑郁症患者进行聚类分析,结果显示老年期抑郁症患者中虚证以气虚、血虚、阴虚与阳虚为主,实证以气郁、血瘀和痰火为主。陈琴等[18]收集62例干燥综合征患者治疗处方,通过分析将治疗干燥综合征常用的药物分成6类,为干燥综合征不同证候的诊疗提供药物组合参考。寇永锋等[19]对770例类风湿关节炎患者进行聚类分析,明确风湿性关节炎临床常见证型及各证型主要的症状,为类风湿关节炎证候量化提供了依据。
主成分分析和因子分析
主成分分析和因子分析是一种降维、简化数据的技术。主成分分析可通过矩阵变换将数据分成多个主成分,每个主成分与原变量间存在线性组合关系,但其提取出来的主成分无法清晰地解释其代表的含义,而因子分析可弥补这一不足,因子分析通过研究众多变量间的内部依赖关系,并用少数几个抽象变量表示基本的数据结构,其称作“因子”,能反映原来众多变量的主要信息,因此二者具有包含与扩展的关系。刘瑜等[20]通过主成分分析和因子分析功能性腹胀患者300例,发现功能性腹胀病位在肝、脾、胃、肠,病机有阴阳、虚实、寒热之分,基本病机为胃失和降。郭超峰等[21]通过因子分析的降维方法提取中老年高血压患者主要病理因子,中老年高血压病病理要素主要与痰湿或浊痰、肝肾阴虚、瘀血、阳虚寒凝血脉、阴虚内热、心脾气血两虚、肾中精气亏虚、肾阳虚衰、肾阴亏虚、肝火亢盛等病理因素有关。
贝叶斯网络
贝叶斯网络是基于概率推理的数学模型,可推理不完整的数据集,善于解决复杂不确定性和关联性引起的故障,可重复,具有较高的客观性。张霆等[22]对225例肺癌
数据挖掘技术在中医医案的应用研究 来自淘豆网m.daumloan.com转载请标明出处.