- · 《中国慢性病预防与控制[10/30]
- · 《中国慢性病预防与控制[10/30]
- · 《中国慢性病预防与控制[10/30]
- · 《中国慢性病预防与控制[10/30]
- · 《中国慢性病预防与控制[10/30]
- · 《中国慢性病预防与控制[10/30]
- · 中国慢性病预防与控制版[10/30]
机器学习方法在慢性病研究中的应用进展
作者:网站采编关键词:
摘要:近年来,我国慢性病发病率呈现逐年上升趋势,由此造成沉重的疾病负担[1];同时,慢性病并发症所带来的致死和致残现象极为严峻,已成为影响我国居民健康和生存质量的重大威胁
近年来,我国慢性病发病率呈现逐年上升趋势,由此造成沉重的疾病负担[1];同时,慢性病并发症所带来的致死和致残现象极为严峻,已成为影响我国居民健康和生存质量的重大威胁[2]。因而,对慢性病发病风险进行预测,以便及早采取积极的干预措施,对于疾病的防控工作显得尤为重要。
机器学习作为一类经典的预测模型,具有良好的预测性能[3],在慢性病研究中已经得到了较为广泛的应用[4-6]。另外,随着大数据的积累以及云计算的普及,基于健康大数据开展深度学习正成为慢性病研究领域的热点,并有望为智能医疗和健康决策提供强有力的支撑。
为此,本文从传统机器学习、集成学习和深度学习三个方面,对近年来机器学习方法在慢性病研究中的应用进行梳理,以期为慢性病的早期筛查和及时干预提供科学借鉴。
传统机器学习
传统机器学习是一类经典的预测模型,在慢性病发病风险识别以及危险因素研究中得到了广泛应用。为此,我们对慢性病研究中常见的几种传统机器学习方法(如回归分析、决策树、支持向量机、人工神经网络、贝叶斯分类、关联规则等)进行梳理。
1.回归分析
回归分析由于其模型设定简单、结果易于解释等优势,早已成为机器学习方法库中最常用的工具,在慢性病研究中得到较为广泛应用。其中,以线性回归、logistic回归及正则化回归应用最为广泛。例如,为探究大气污染物、气象因素与哮喘发病的关系,Gabda D等人利用多重线性回归构建预测模型,结果显示NO2、气温和相对湿度是哮喘发病的重要预测因子[7]。然而,当影响因素与研究结局呈非线性关系时,线性回归预测结果往往存在较大偏差。为此,基于概率思想的非线性logistic回归开始得到应用。如郭艳芳等人为探究肥胖对糖尿病风险的影响及其可能存在的性别差异,采用logistic回归对2015年深圳市宝安区3224名18~69岁常住居民开展研究,发现腰围、腰臀比、腰围身高比对糖尿病预测具有重要影响;另外,研究还发现腰臀比对预测男性糖尿病风险相对重要,而腰围身高比则对女性糖尿病风险预测效果更好[8]。为进一步提高模型的预测准确性,有研究将核函数的思想与回归分析相结合,如Matsuda K等人利用核logistic回归对慢性丙型肝炎患者继发肝纤维化进行分期,发现该方法预测准确率相较于传统的logistic回归有明显提升,同时该法也能对多分类问题进行有效处理[9]。此外,在实际研究中,慢性病的影响因素往往很多,不可避免地存在多重共线性问题,若缺乏有效的变量筛选技术将会导致预测效能大幅下降,甚至产生错误的结果。为此,研究者开始将正则化技术运用于回归分析中,显著降低了过拟合风险,如Xin B等人基于62例痴呆、141例轻度认知功能障碍患者以及71例健康者的神经影像学资料,构建L1正则化(LASSO)logistic回归、支持向量机模型,结果显示正则化的logistic对于痴呆和轻度认知功能障碍具有更高的预测准确率[10]。
2.决策树
决策树最早由Quinlan于1986年提出,是一种自上而下的树形模型,从根结点出发依次对结点变量进行划分,直至达到叶子结点为止,决策树中的每条路径对应一个分类规则[11]。由于决策树分类结果直观、易于解释;同时对噪声不太敏感,分类精度较高,在慢性病危险因素及风险预测研究中得到较多应用。
决策树算法众多,其中以ID3、C4.5、CART应用最为广泛。如AL-Dlaeen D等人基于经典的ID3算法构建阿尔茨海默病发生风险的决策树模型,结果发现该预测系统具有较高的准确性,在阿尔茨海默病临床初筛中发挥了较大的助力[12]。在经典决策树算法基础上,一些新的算法也陆续得到应用,如冯伟等人基于2010年中国慢性病与危险因素监测资料,采用卡方自动交互检测(chi-squared automatic interaction detector,CHAID)算法构建决策树,对不同特征人群进行糖尿病风险研究,结果显示腰围增大并伴有糖尿病家族史的人群糖尿病患病率更高,由于该法所需调查的危险因素较少、操作简便,在确定糖尿病优先筛查人群中具有重要的应用价值[13]。值得注意的是,在应用中,决策树不可避免地存在过拟合的缺陷,为有效降低该缺陷的影响并进而提高预测准确率,对决策树进行剪枝(预剪枝和后剪枝)显得尤为重要。目前,后剪枝方法应用较多,如Hashem S等人为实现肝纤维化的早期筛查,基于名患者的生物标志物等临床资料,构建了肝纤维化预测的决策树模型,结果显示采用误差降低剪枝算法(reduced error pruning,REP)进行后剪枝之后,决策树的预测准确率得到进一步提升[14]。
文章来源:《中国慢性病预防与控制》 网址: http://www.zgmxbyfykz.cn/qikandaodu/2021/0207/440.html
上一篇:智慧养老平台构建研究*
下一篇:门诊性病患者诊疗护理工作研究