• 中国精品科技期刊
  • 《中文核心期刊要目总览》收录期刊
  • RCCSE 中国核心期刊(5/114,A+)
  • Scopus收录期刊
  • 美国《化学文摘》(CA)收录期刊
  • WHO 西太平洋地区医学索引(WPRIM)收录期刊
  • 《中国科学引文数据库(CSCD)》核心库期刊 (C)
  • 中国科技核心期刊
  • 中国科技论文统计源期刊
  • 《日本科学技术振兴机构数据库(中国)》(JSTChina)收录期刊
  • 美国《乌利希期刊指南》(UIrichsweb)收录期刊
  • 中华预防医学会系列杂志优秀期刊(2019年)

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

机器学习算法在体检人群糖尿病风险预测中的应用

欧阳平 李小溪 冷芬 赖晓英 张慧明 严传杰 王楚琼 白雨 邢志强 刘旭涛 缪苗 邓侃 李文源

欧阳平, 李小溪, 冷芬, 赖晓英, 张慧明, 严传杰, 王楚琼, 白雨, 邢志强, 刘旭涛, 缪苗, 邓侃, 李文源. 机器学习算法在体检人群糖尿病风险预测中的应用[J]. 中华疾病控制杂志, 2021, 25(7): 849-853, 868. doi: 10.16462/j.cnki.zhjbkz.2021.07.020
引用本文: 欧阳平, 李小溪, 冷芬, 赖晓英, 张慧明, 严传杰, 王楚琼, 白雨, 邢志强, 刘旭涛, 缪苗, 邓侃, 李文源. 机器学习算法在体检人群糖尿病风险预测中的应用[J]. 中华疾病控制杂志, 2021, 25(7): 849-853, 868. doi: 10.16462/j.cnki.zhjbkz.2021.07.020
OUYANG Ping, LI Xiao-xi, LENG Fen, LAI Xiao-ying, ZHANG Hui-ming, YAN Chuan-jie, WANG Chu-qiong, BAI Yu, XING Zhi-qiang, LIU Xu-tao, MIAO Miao, DENG Kan, LI Wen-yuan. Application of machine learning algorithm in diabetes risk prediction of physical examination population[J]. CHINESE JOURNAL OF DISEASE CONTROL & PREVENTION, 2021, 25(7): 849-853, 868. doi: 10.16462/j.cnki.zhjbkz.2021.07.020
Citation: OUYANG Ping, LI Xiao-xi, LENG Fen, LAI Xiao-ying, ZHANG Hui-ming, YAN Chuan-jie, WANG Chu-qiong, BAI Yu, XING Zhi-qiang, LIU Xu-tao, MIAO Miao, DENG Kan, LI Wen-yuan. Application of machine learning algorithm in diabetes risk prediction of physical examination population[J]. CHINESE JOURNAL OF DISEASE CONTROL & PREVENTION, 2021, 25(7): 849-853, 868. doi: 10.16462/j.cnki.zhjbkz.2021.07.020

机器学习算法在体检人群糖尿病风险预测中的应用

doi: 10.16462/j.cnki.zhjbkz.2021.07.020
详细信息
    通讯作者:

    李文源,E-mail: liwy666@163.com

  • 中图分类号: R589.1;TP181

Application of machine learning algorithm in diabetes risk prediction of physical examination population

More Information
  • 摘要:   目的  探索Logistic回归分析模型和LightGBM(light gradient boosting machine)算法对体检人群未来罹患糖尿病的预测效果及影响因素。  方法  选取2003年8月-2019年4月在南方医院健康管理中心多次进行团体参检的36 292例非糖尿病人员,分层随机选取70%样本,以首次体检的性别、年龄、BMI、腰围、心率、收缩压、舒张压、空腹血糖等34项指标作为自变量,以相对首次体检时间的5年内是否罹患糖尿病为因变量,基于Logistic回归分析模型和LightGBM算法分别建立糖尿病预测模型。将预测模型应用于剩余30%样本,并使用受试者工作特征(receiver operating characteristic, ROC)曲线下面积(area under curve, AUC)进行预测效果的评价。  结果  Logistic回归分析模型和LightGBM算法模型的AUC分别为0.906和0.910,在最佳临界点上,Logistic回归分析模型的灵敏度和特异度分别为81.5%和84.3%,LightGBM(light gradient boosting machine)算法模型的灵敏度和特异度分别为81.6%和85.2%。  结论  Logistic回归分析模型和LightGBM算法模型对体检人群的未来糖尿病患病风险均有较好的预测效果。
  • 表  1  体检人群的基本情况分析(x±s)

    Table  1.   Analysis of the basic characteristics of medical examination population (x±s)

    变量 5年内未患糖尿病 5年内罹患糖尿病 P
    性别[n(%)] < 0.001
      男 20 332(91.72) 1 835(8.28)
      女 13 716(97.10) 409(2.90)
    年龄(岁) 38.96±11.73 49.68±12.95 < 0.001
    BMI(kg/m2) 23.17±3.14 26.02±3.32 < 0.001
    腰围(cm) 78.03±9.46 87.26±9.38 < 0.001
    心率(次/分) 79.14±11.84 80.26±11.67 < 0.001
    收缩压(mm Hg) 119.24±15.58 132.62±17.94 < 0.001
    舒张压(mm Hg) 73.62±10.92 81.62±12.77 < 0.001
    空腹血糖(mmol/L) 4.70±0.53 5.66±0.80 < 0.001
    尿酸(0.001 mmol/L) 353.83±98.58 406.90±95.30 < 0.001
    总胆固醇(mmol/L) 5.13±0.98 5.52±1.09 < 0.001
    甘油三酯(mmol/L) 1.49±1.34 2.57±2.37 < 0.001
    低密度脂蛋白胆固醇(mmol/L) 2.77±0.78 3.06±0.85 < 0.001
    高密度脂蛋白胆固醇(mmol/L) 1.58±0.43 1.31±0.35 < 0.001
    丙氨酸氨基转移酶(U/L) 22.32±20.68 33.46±26.04 < 0.001
    天门冬氨酸氨基转移酶(U/L) 25.4±12.55 30.49±15.40 < 0.001
    肌酐(0.001 mmol/L) 72.27±16.69 76.18±16.15 < 0.001
    尿素(mmol/L) 4.58±1.06 4.95±1.27 < 0.001
    白细胞总数(109/L) 6.48±1.60 7.25±1.75 < 0.001
    中性粒细胞总数(109/L) 3.66±1.20 4.11±1.27 < 0.001
    红细胞总数(1012/L) 4.90±0.55 5.06±0.55 < 0.001
    单核细胞总数(109/L) 0.37±0.13 0.42±0.15 < 0.001
    淋巴细胞总数(109/L) 2.24±0.60 2.46±0.69 < 0.001
    嗜碱细胞总数(109/L) 0.03±0.02 0.03±0.02 < 0.001
    嗜酸细胞总数(109/L) 0.19±0.17 0.23±0.19 < 0.001
    血小板总数(109/L) 243.84±53.50 245.08±56.83 0.314
    血红蛋白(g/L) 143.52±15.27 149.25±14.13 < 0.001
    红细胞平均血红蛋白量(pg) 29.46±2.74 29.70±2.95 < 0.001
    红细胞平均血红蛋白浓度(g/L) 333.07±10.61 334.91±10.99 < 0.001
    红细胞比容(%) 43.00±40.00 45.00±40.00 < 0.001
    红细胞平均容积(fL) 88.36±7.00 88.57±7.48 0.192
    大型血小板比值(%) 13.13±1.46 15.14±5.76 < 0.001
    平均血小板容积(fL) 10.82±0.83 10.78±0.84 0.034
    红细胞分布宽度-CV(%) 13.08±1.12 13.22±1.19 < 0.001
    红细胞分布宽度-SD(fL) 41.69±2.83 42.12±3.06 < 0.001
    下载: 导出CSV

    表  2  多因素Logistic回归分析模型分析结果

    Table  2.   Analysis results of multi-factor Logistic regression analysis model

    变量 β Wald OR(95% CI)值 P
    年龄(岁) 0.021 72.441 1.021(1.016~1.026) < 0.001
    丙氨酸氨基转移酶(U/L) 0.007 53.143 1.007(1.005~1.009) < 0.001
    中性粒细胞总数(109/L) 0.131 35.125 1.140(1.091~1.190) < 0.001
    红细胞平均血红蛋白量(pg) 0.184 6.316 1.202(1.040~1.386) 0.012
    红细胞比容(%) -7.870 3.474 0.000(0.000~1.611) 0.062
    淋巴细胞总数(109/L) 0.204 21.558 1.226(1.125~1.337) < 0.001
    红细胞总数(1012/L) 0.805 4.870 2.236(1.088~4.548) 0.027
    嗜碱细胞总数(109/L) 2.101 2.238 8.174(0.498~123.787) 0.135
    红细胞平均血红蛋白浓度(g/L) -0.014 4.595 0.986(0.973~0.999) 0.032
    嗜酸细胞总数(109/L) 0.298 3.948 1.347(0.998~1.798) 0.047
    收缩压(mm Hg) 0.008 22.336 1.008(1.005~1.012) < 0.001
    大型血小板比值(%) 0.160 265.812 1.173(1.151~1.196) < 0.001
    肌酐(0.001 mmol/L) -0.009 23.236 0.991(0.987~0.994) < 0.001
    空腹血糖(mmol/L) 1.933 1 927.141 6.913(6.345~7.541) < 0.001
    总胆固醇(mmol/L) 0.430 102.369 1.537(1.414~1.670) < 0.001
    低密度脂蛋白胆固醇(mmol/L) -0.499 88.919 0.607(0.547~0.673) < 0.001
    高密度脂蛋白胆固醇(mmol/L) -0.948 123.818 0.387(0.328~0.457) < 0.001
    腰围(cm) 0.047 177.602 1.048(1.041~1.056) < 0.001
    尿素(mmol/L) 0.045 3.153 1.046(0.995~1.099) 0.076
    下载: 导出CSV

    表  3  Logistic回归分析模型预测模型在测试集上分类结果[n(%)]

    Table  3.   Logistic regression prediction model classification results on the test set [n(%)]

    预测结果 实际结果 合计
    5年内罹患糖尿病 5年内未患糖尿病
    5年内罹患糖尿病 563(81.48) 1 600(15.69) 2 163(19.87)
    5年内未患糖尿病 128(18.52) 8 597(84.31) 8 725(80.13)
    合计 691(100.00) 10 197(100.00) 10 888(100.00)
    下载: 导出CSV

    表  4  LightGBM预测模型在测试集上分类结果[n(%)]

    Table  4.   LightGBM prediction model classification results on the test set [n(%)]

    预测结果 实际结果 合计
    5年内罹患糖尿病 5年内未患糖尿病
    5年内罹患糖尿病 564(81.62) 1 512(14.83) 2 076(19.07)
    5年内未患糖尿病 127(18.38) 8 685(85.17) 8 812(80.93)
    合计 691(100.00) 10 197(100.00) 10 888(100.00)
    下载: 导出CSV
  • [1] Cho NH, Shaw JE, Karuranga S, et al. IDF diabetes atlas: global estimates of diabetes prevalence for 2017 and projections for 2045[J]. Diabetes Res Clin Pract, 2018, 138: 271-281. DOI: 10.1016/j.diabres.2018.02.023.
    [2] Wei Y, Wang J, Han X, et al. Metabolically healthy obesity increased diabetes incidence in a middle‐aged and elderly Chinese population[J]. Diabetes Metab Res Rev, 2019, 36(1). DOI: 10.1002/dmrr.3202.
    [3] Peer N, Balakrishna Y, Durao S. Screening for type 2 diabetes mellitus[J]. Cochrane Database Syst Rev, 2020, (5): 1465-1858. DOI: 10.1002/14651858.cd005266.
    [4] Ekoe J, Goldenberg R, Katz P. Screening for diabetes in adults[J]. Can J Diabetes, 2018, 42: S16-S19. DOI: 10.1016/j.jcjd.2017.10.004.
    [5] 覃伟, 高敏, 沈莹, 等. 基于机器学习算法的2型糖尿病患者3个月血糖预测[J]. 中华疾病控制杂志, 2019, 23(11): 1313-1317. DOI: 10.16462/j.cnki.zhjbkz.2019.11.003.

    Qin W, Gao M, Shen Y, et al. Prediction of 3-mouth glycemic control in type 2 diabetes mellitus based on machine learning algorithm[J]. Chin J Dis Control Prev, 2019, 23(11): 1313-1317. DOI: 10.16462/j.cnki.zhjbkz.2019.11.003.
    [6] Mahboob AT, Iqbal MA, Ali Y, et al. A model for early prediction of diabetes[J]. Inform Med Unlocked, 2019, 16: 100204. DOI: 10.1016/j.imu.2019.100204.
    [7] Dinh A, Miertschin S, Young A, et al. A data-driven approach to predicting diabetes and cardiovascular disease with machine learning[J]. BMC Med Inform Decis Mak, 2019, 19(1): 211. DOI: s12911-019-0918-5.
    [8] Mamuda M, Sathasivam S. Predicting the survival of diabetes using neural network[J]. AIP Conf Proc, 2017, 1870(1). DOI: 10.1063/1.4995878.
    [9] 吴文军, 徐蕾, 黄丽梅, 等. 2016-2017年上海市社区糖尿病高危人群筛查结果分析[J]. 中华疾病控制杂志, 2019, 23(7): 802-806. DOI: 10.16462/j.cnki.zhjbkz.2019.07.012.

    Wu WJ, Xu L, Huang LM, et al. Analysis of diabetes screening in high-risk population in different communities in Shanghai from 2016 to 2017[J]. Chin J Dis Control Prev, 2019, 23(7): 802-806. DOI: 10.16462/j.cnki.zhjbkz.2019.07.012.
    [10] Lynam AL, Dennis JM, Owen KR, et al. Logistic regression has similar performance to optimised machine learning algorithms in a clinical setting: application to the discrimination between type 1 and type 2 diabetes in young adults[J]. Diagn Progn Res, 2020, 4(1): 6. DOI: 10.1186/s41512-020-00075-2.
    [11] Ke G, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree[J]. Adv Neural Inf Process Syst, 2017: 3146-3154. doi: 10.5555/3294996.3295074
    [12] 中华医学会, 中华医学会杂志社, 中华医学会全科医学分会, 等. 2型糖尿病基层诊疗指南(实践版·2019)[J]. 中华全科医师杂志, 2019, 18(9): 810-818. DOI:10.3760/cma.j.issn.1671-7368. 2019.09.003.

    Chinese Medical Association, Chinese Medical Journals Publishing House, Chinese Society of General Practice, et al. Guideline for primary care of type 2 diabetes: practice version(2019)[J]. Chin J Gen Pract, 2019, 18(9): 810-818. DOI: 10.3760/cma.j.issn.1671-7368.2019.09.003.
    [13] Shuai, Y, Zheng Y, Huang H, et al. Hybrid Software Obsolescence Evaluation Model Based on PCA-SVM-GridSearchCV[C] // 2018 IEEE 9th International Conference on Software Engineering and Service Science (ICSESS) IEEE. Beijing: IEEE, 2018: 449-453.
    [14] Mugeni R, Aduwo JY, Briker SM, et al. A Review of diabetes prediction equations in African descent populations[J]. Front Endocrinol (Lausanne), 2019, 10: 663. DOI: 10.3389/fendo.2019.00663.
    [15] Xie Z, Nikolayeva O, Luo J, et al. Building risk prediction models for type 2 diabetes using machine learning techniques[J]. Prev Chronic Dis, 2019, 16: E130. DOI: 10.5888/pcd16.190109.
    [16] Chen X, Wu Z, Chen Y, et al. Risk score model of type 2 diabetes prediction for rural Chinese adults: the rural deqing cohort study[J]. J Endocrinol Invest, 2017, 40(10): 1115-1123. DOI: 10.1007/s40618-017-0680-4.
    [17] Wang K, Gong M, Xie S, et al. Nomogram prediction for the 3-year risk of type 2 diabetes in healthy mainland China residents[J]. EPMA J, 2019, 10(3): 227-237. DOI: 10.1007/s13167-019-00181-2.
    [18] Yatsuya H, Li Y, Hirakawa Y, et al. A point system for predicting 10-year risk of developing type 2 diabetes mellitus in Japanese men: aichi workers' cohort study[J]. J Epidemiol, 2018, 28(8): 347-352. DOI: 10.2188/jea.je20170048.
    [19] Zhang Y, Zhou X, Wang Q, et al. Quality of reporting of multivariable logistic regression models in Chinese clinical medical journals[J]. Medicine (Baltimore), 2017, 96(21): e6972. DOI:10.1097/md.000000000 0006972.
    [20] Maddatu J, Anderson-Baucum E, Evans-Molina C. Smoking and the risk of type 2 diabetes[J]. Transl Res, 2017, 184: 101-107. DOI: 10.1016/j.trsl.2017.02.004.
    [21] Holst C, Becker U, Jørgensen ME, et al. Alcohol drinking patterns and risk of diabetes: a cohort study of 70, 551 men and women from the general Danish population[J]. Diabetologia, 2017, 60(10): 1941-1950. DOI: 10.1007/s00125-017-4359-3.
    [22] Sun D, Zhou T, Heianza Y, et al. Type 2 diabetes and hypertension : a study on bidirectional causality[J]. Circ Res, 2019, 124(6): 930-937. DOI: 10.1161/circresaha.118.314487.
    [23] Schnurr TM, Jakupović H, Carrasquilla GD, et al. Obesity, unfavourable lifestyle and genetic risk of type 2 diabetes: a case-cohort study[J]. Diabetologia, 2020, 63(7): 1324-1332. DOI: 10.1007/s00125-020-05140-5.
    [24] Kolb H, Martin S. Environmental/lifestyle factors in the pathogenesis and prevention of type 2 diabetes[J]. BMC Med, 2017, 15(1). DOI: 10.1186/s12916-017-0901-x.
  • 加载中
表(4)
计量
  • 文章访问数:  809
  • HTML全文浏览量:  836
  • PDF下载量:  220
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-07-16
  • 修回日期:  2020-12-07
  • 网络出版日期:  2021-08-13
  • 刊出日期:  2021-07-10

目录

    /

    返回文章
    返回