四川大学华西医院循证医学与临床流行病学教研室秦文哲等在《中国胸心血管外科临床杂志》2016年1月第23卷第1期发表题为“大数据背景下医学数据挖掘的研究进展及应用”的研究综述,以大数据为背景,对大数据的由来、意义、分类、特征、数据挖掘和医学数据挖掘的研究进展、应用和未来发展进行综述。
大数据具有预警性、预测性、差异性、共享性和动态性等特性。伴随着大数据时代的来临,DM(数据挖掘)应运而生。
数据挖掘是指通过对大量有噪声的模糊数据,以及随机的实际应用数据的自动和半自动化分析和探索,来发现其中有意义的模式和规则。
DM的应用通常有两大类:预测和描述。预测任务主要是根据其他属性的值,预测特定属性的值,主要有分类和回归2种模式。描述任务的目标是概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常),主要有关联分析、聚类分析、异常检测3种模式。在DM算法的理论基础上,一些重要的数据挖掘技术包括:关联规则法、聚类分析、链分析、决策树、人工神经网络、遗传算法、概率论、数理统计、粗糙集和模糊处理技术等。
数据挖掘对医学实践的重要性主要体现在四个方面:
(1)医学数据挖掘会大大增加产生新知识的速度,利用计算机技术分析电子病历中包含的非结构化数据能够更好的进行自动化的数据采集。
(2)医学数据挖掘可以帮助进行知识传播,大量的研究使得知识的转化非常困难,大部分临床医生难以跟上最新的证据来指导临床实践。这个问题可以通过分析现有的电子病历产生一个仪表板来指导临床决策。如IBM的沃森超级计算机与斯隆凯特林癌症中心合作,利用这个方法来辅助临床医生对癌症患者做出诊断和提出治疗方案。
(3)通过整合系统生物学与电子病历数据,医学数据挖掘可以为个性化医疗计划转变为临床实践提供机会。
(4)通过直接向病人提供信息来转化卫生保健知识,让病人在治疗过程中发挥更积极的作用。
我国于2004年4月正式启动“国家医药卫生科学数据共享工程”。包括1个网、6个数据中心、40个左右的主体数据库和300个左右的数据库(数据集系列),在这个框架中包含了多种不同层次的数据整合与资源组织方式。为政府卫生决策、医学科技创新、医疗保健、医学人才培养,以及全民健康提供数据资源和信息服务(共享国际生物医学数据.科学时报. http://www.bioon.com/biology/news/289239.shtml.)。
近年来,国内外心血管外科领域相继涌现出一系列高质量的临床数据库,如英国胸心外科协会(SCTS)数据库、澳大利亚和新西兰心胸外科数据库以及阜外心血管病医院的中国成人心外科数据库都极大的提高了心血管外科治疗的成功率。四川大学华西医院所建立的中国人心脏瓣膜置换术后抗凝治疗数据库,搜集了数万例心脏瓣膜置换术后患者有关抗凝治疗的住院及随访数据,为我国进行心脏瓣膜置换术后抗凝治疗的研究提供了坚实的数据支持。大型数据库的建立可以更好的支持临床数据挖掘工作,从而形成临床数据收集—挖掘—临床决策支持的闭环,达到医疗质量持续改进和提高的目的。
以大数据为基础的医学数据挖掘是一门涉及面广、技术难度大的新型交叉学科,是计算机技术、人工智能和现代医学相结合的产物,需要从事计算机、统计学的科研人员与广大医务工作者之间的通力合作。数据挖掘具有自身独有的理念,给人们解决问题提供了一种新的思路和方法。因此,随着理论研究的深入和进一步的实践探索,医学数据挖掘必将在疾病的诊疗、医学科研与教学以及医院管理等方面发挥强有力的作用。
广州方学统计科技有限责任公司 版权所有 粤ICP备19150244号