融合遗传因素的糖尿病预测及影响因素分析

doi:10.12307/2026.899

中国组织工程研究 ›› 2026, Vol. 30 ›› Issue (36): 9589-9596.doi: 10.12307/2026.899

• 组织构建临床实践 clinical practice in tissue construction • 上一篇下一篇

融合遗传因素的糖尿病预测及影响因素分析

刘怡1，卢加荣2，吴建勇1

1新疆特殊环境与健康研究重点实验室，新疆医科大学公共卫生学院，新疆维吾尔自治区乌鲁木齐市 830017；2新疆财经大学统计与数据科学学院，新疆维吾尔自治区乌鲁木齐市 830012

收稿日期:2025-10-17 修回日期:2026-03-05 出版日期:2026-12-28 发布日期:2026-05-25
通讯作者: 吴建勇，博士，博士生导师，副研究员，新疆特殊环境与健康研究重点实验室，新疆医科大学公共卫生学院，新疆维吾尔自治区乌鲁木齐市 830017
作者简介:刘怡，女，1993年生，甘肃省民勤县人，汉族，在读博士，主要从事空间统计学及其应用，医疗卫生大数据分析以及传染性流行病学的研究。
基金资助:
新疆特殊环境与健康研究重点实验室项目(SKL-SEHR-2024-13)，项目名称：人口老龄化背景下新疆老年人口健康水平的空间分布及影响因素研究，项目负责人：刘怡

Diabetes prediction and analysis of influencing factors integrating genetic information

Liu Yi1, Lu Jiarong2, Wu Jianyong1

1Key Laboratory of Special Environment and Health Research in Xinjiang, School of Public Health, Xinjiang Medical University, Urumqi 830017, Xinjiang Uygur Autonomous Region, China; 2School of Data and Statistical Sciences, Xinjiang University of Finance and Economics, Urumqi 830012, Xinjiang Uygur Autonomous Region, China; 3College of Statistics and Data Science, Xinjiang University of Finance and Economics, Urumqi 830012, Xinjiang Uygur Autonomous Region, China

Received:2025-10-17 Revised:2026-03-05 Online:2026-12-28 Published:2026-05-25
Contact: Wu Jianyong, PhD, Doctoral supervisor, Associate researcher, Key Laboratory of Special Environment and Health Research in Xinjiang, School of Public Health, Xinjiang Medical University, Urumqi 830017, Xinjiang Uygur Autonomous Region, China
About author:Liu Yi, PhD candidate, Key Laboratory of Special Environment and Health Research in Xinjiang, School of Public Health, Xinjiang Medical University, Urumqi 830017, Xinjiang Uygur Autonomous Region, China
Supported by:
The Project of the Key Laboratory of Special Environment and Health Research in Xinjiang, No. SKL-SEHR-2024-13 (to LY)

摘要/Abstract

摘要：

文题释义：
糖尿病：是一种以慢性高血糖为核心特征的代谢性疾病，发病机制涉及胰岛素分泌缺陷或胰岛素抵抗，导致糖、脂肪、蛋白质代谢紊乱。糖尿病的典型临床表现为多饮、多食、多尿及体质量下降，长期未控制可引发心脑血管疾病、糖尿病肾病、视网膜病变等严重并发症。
机器学习：是人工智能的核心分支，通过算法使计算机从数据中自动学习规律，并用于预测或决策。机器学习的核心任务包括分类、回归、聚类等，常用方法如决策树、支持向量机、神经网络等。在医学领域，机器学习能处理高维、非线性数据(如基因数据、临床指标)，挖掘潜在关联，提升疾病预测精度。

背景：早期风险评估与准确诊断对于临床防治糖尿病具有重要意义。遗传因素在糖尿病发病机制中起重要作用，但目前多数研究对遗传因素在风险建模中的融合不足。
目的：构建融合遗传因素、人体测量学指标及胰岛素代谢指标的综合特征数据集，基于该数据集提出一种可解释性糖尿病预测模型，实现糖尿病的早期风险评估和预测。
方法：使用公开数据平台Kaggle网站提供的糖尿病预测竞赛数据集，共纳入有效样本5 070 例，其中糖尿病组1 936 例、非糖尿病组3 134例。基于HistGBDT算法对融合特征数据集进行模型训练，通过网格搜索方法优化模型超参数，采用准确率、精确率、召回率、F1分数和受试者工作特征曲线下面积(AUC)等指标评估模型性能；引入SHAP解释框架，识别模型中主要影响糖尿病风险的关键特征，提升模型可解释性。通过消融实验验证融合遗传因素特征的重要性。
结果与结论：可解释性糖尿病预测模型在准确率(98.03%)、精确率(97.66%)、召回率(97.16%)、F1 分数(97.41%)及 AUC(97.86%)等指标上均优于现有主流模型，性能提升1%-4%。消融实验显示，融合遗传因素的特征集能够更全面有效地捕捉糖尿病风险特征。SHAP分析表明，肱三头肌皮褶厚度、胰岛素释放测试、体质量指数、口服耐糖量测试、舒张压是影响糖尿病发病风险的主要特征，模型的可解释性分析为糖尿病的早期识别和个体化健康管理提供了理论基础和技术支持。
https://orcid.org/0009-0001-9290-2727(刘怡)

中国组织工程研究杂志出版内容重点：干细胞；骨髓干细胞；造血干细胞；脂肪干细胞；肿瘤干细胞；胚胎干细胞；脐带脐血干细胞；干细胞诱导；干细胞分化；组织工程

关键词: 糖尿病, 预测模型, 机器学习, 遗传因素, 可解释性模型, 风险评估

Abstract: BACKGROUND: Early risk assessment and accurate diagnosis are crucial for the clinical prevention and management of diabetes mellitus. Genetic factors play a significant role in the pathogenesis of diabetes; however, most current studies insufficiently integrate genetic information into risk modeling.
OBJECTIVE: To construct a comprehensive feature dataset integrating genetic factors, anthropometric indicators, and insulin metabolism metrics, and to develop an interpretable diabetes mellitus prediction model for early risk assessment and prediction.
METHODS: A publicly available diabetes prediction dataset from Kaggle was used, comprising 5 070 valid samples, including 1 936 diabetic and 3 134 non-diabetic individuals. The model was trained on the integrated feature dataset using the Histogram-based Gradient Boosting Decision Tree (HistGBDT) algorithm. Hyperparameters were optimized via grid search. Model performance was evaluated using accuracy, precision, recall, F1-score, and area under the receiver operating characteristic curve. The SHapley Additive exPlanations (SHAP) framework was applied to identify key features influencing diabetes risk and to enhance model interpretability. Ablation studies were conducted to validate the contribution of genetic factors.
RESULTS AND CONCLUSION: The proposed interpretable diabetes prediction model outperformed existing mainstream models across all evaluation metrics, achieving an accuracy of 98.03%, precision of 97.66%, recall of 97.16%, F1-score of 97.41%, and the area under the receiver operating characteristic curve of 97.86%, representing an improvement of 1%–4% in overall performance. Ablation experiments demonstrated that integrating genetic factors enables more comprehensive and effective capture of diabetes risk characteristics. SHAP analysis identified triceps skinfold thickness, insulin release test, body mass index, oral glucose tolerance test, and diastolic blood pressure as the top five influential factors. The interpretability analysis provides a theoretical foundation and technical support for early diabetes identification and personalized health management.

Key words: diabetes mellitus, prediction model, machine learning, genetic factors, interpretable model, risk assessment

中图分类号:

刘怡, 卢加荣, 吴建勇. 融合遗传因素的糖尿病预测及影响因素分析[J]. 中国组织工程研究, 2026, 30(36): 9589-9596.

Liu Yi, Lu Jiarong, Wu Jianyong. Diabetes prediction and analysis of influencing factors integrating genetic information[J]. Chinese Journal of Tissue Engineering Research, 2026, 30(36): 9589-9596.

图/表（结果） 11

2.1 参与者数量分析纳入有效样本5 070例，其中糖尿病组1 936例、非糖尿病组3 134例。
2.2 试验流程图见图2。
2.3 训练组患者基线特征比较结合图3糖尿病患者和非糖尿病患者的数值型特征核密度分布可见，不同特征在糖尿病组与非糖尿病组之间存在明显差异。具体而言，糖尿病患者的肱三头肌皮褶厚度、胰岛素释放测试、口服葡萄糖耐量测试以及体质量指数的分布整体向右偏移，峰值位置较非糖尿病组更高，提示该类特征在糖尿病患者中呈现显著增高趋势；而年龄与舒张压在两组间分布差异相对较小，但糖尿病组整体水平略高。上述结果表明，这些临床特征在区分糖尿病患者与非糖尿病人群方面具有一定的鉴别价值。
2.4 预测模型的构建基于融合遗传因素的糖尿病特征建模数据集，选用默认参数的HistGBDT算法训练初始糖尿病预测模型IDMPM。为进一步验证HistGBDT模型在糖尿病融合数据集分类任务中的有效性，此次研究将IDMPM与11种主流机器学习模型(均采用默认参数)进行了性能比较。如表1所示，IDMPM在准确率、召回率、F1分数和AUC指标方面均优于其他主流模型，仅在精确率方面略低于Logistic回归和支持向量机。可以看出，基于树的集成模型(如自适应增强算法、随机森林、梯度提升决策树等)普遍比单一模型(如多层感知机、支持向量机、逻辑回归等)具有更高的预测性能，这是因为它们能有效集成多个差异化弱学习器，从而更好地捕捉融合数据中的复杂非线性关系。此次研究所提出的IDMPM模型在多种集成模型中表现最为突出，其优势主要得益于基础模型HistGBDT相较于传统梯度提升树在处理大规模数据时的显著性能提升。HistGBDT通过在每

轮迭代中构建特征直方图并计算其梯度，完成高效的节点分裂，显著提升了模型的计算效率并降低了内存消耗；此外，该基于直方图的策略增强了模型对特征的敏感性，使其能够更充分地识别潜在与糖尿病风险相关的重要特征，从而进一步提升模型的预测性能。
2.5 预测模型评价结果图4展示了K近邻算法、极端梯度提升机、梯度提升决策树和IDMPM的学习曲线，其中蓝色曲线表示训练集结果、粉色曲线表示验证集结果。整体来看，K近邻算法模型的训练与验证得分虽随样本量增加而提升，但两者始终存在显著差距，表现出明显的欠拟合现象，提示其难以充分学

习数据中的非线性特征关系。相比之下，极端梯度提升机模型在训练集上的得分始终维持在1，而验证集得分增长缓慢，表明其存在严重过拟合。梯度提升决策树与IDMPM模型在训练与验证集上的得分均呈现收敛趋势，并且IDMPM模型的拟合效果更优，2条曲线间差距更小，模型表现更为稳定。从收敛速度来看，梯度提升决策树与IDMPM均能随着样本量的增加逐步逼近最优得分，但IDMPM的收敛速度更快，并且其性能随样本量的增加持续提升，体现出良好的可扩展性。综上所述，IDMPM在现有数据中表现出更强的学习能力与拟合效果。
2.6 消融实验结果此次研究基于融合遗传因素的数据集进行了糖尿病特征建模，并训练出性能优于已有研究的预测模型。为进一步验证遗传因素在特征建模与模型训练中的作用与贡献，设计了消融实验。在实验中，将原始特征集中3项与遗传因素相关的变量去除，仅保留人体测量指标与胰岛素代谢指标，构建糖尿病风险预测模型。表2展示了对比实验的结果，结果表明：在去除遗传因素后，模型在各项性能指标上均出现不同程度下降，说明将遗传因素与常规变量融合进行特征建模能够更全面、更有效地刻画糖尿病的发病风险，使模型在训练过程中能够更充分地学习个体的遗传易感性，从而提升预测性能。

2.7 超参数调优与泛化能力分析结果为进一步提升IDMPM的预测性能与鲁棒性，此次研究采用网格搜索技术对模型的超参数组合进行优化。选取对模型性能影响较大的5个超参数：learning_rate、max_iter、max_depth、max_leaf_nodes和 min_
samples_leaf，并按照如下步骤进行调参：①固定 learning_rate 和其他参数为默认值，采用五折交叉验证方法，确定模型理想的最大迭代次数 max_iter，初步构建模型结构；②将max_iter 更新为上述得到的最优值，并对max_depth、max_leaf_nodes和min_samples_leaf 三个参数进行网格优化，确定其最优组合；③在更新上述参数为最优值的基础上，对 learning_rate 进行微调，进一步确定使模型得分最优的学习率参数。
通过以上3步最终确定了IDMPM的最优超参数组合，具体结果如表3所示。图5展示了调整max_iter、max_depth和min_samples_leaf 参数对模型性能影响的验证曲线。值得注意的是，随着max_iter的增加，模型在训练集上的得分不断提高；当max_iter设置为35时，模型在交叉验证集上达到最优得分，说明该值为该参数的最优选择。同理，max_depth 和 min_samples_leaf 的最优取值分别为9和7。

如表4所示，经过超参数调优后模型的综合性能进一步提升，表明通过系统性地调整模型参数，IDMPM能够更好地适应糖尿病数据的特征分布、有效降低过拟合风险，提升模型的泛化能力与稳定性。

2.8 模型评估与可视化分析结果为全面评估IDMPM在测试集上基于最优超参数组合的性能表现，采用包括KS曲线、受试者工作特征曲线及混淆矩阵在内的多种可视化工具进行分析。图6展示了4种模型在测试集上的混淆矩阵对比情况。测试集包含1 014例样本，其中非糖尿病患者627例、糖尿病患者387例。IDMPM在测试集上成功预测617例非糖尿病患者与380例糖尿病患者，仅将10例非糖尿病样本误判为糖尿病，将7例糖尿病样本误判为非糖尿病。与其他模型相比，IDMPM在未见数据上的预测效果最佳，显示出更高的准确性与稳定性。
图7A显示IDMPM的AUC值最大，显著优于其他模型，说明IDMPM的分类性能更优。图7B显示IDMPM的最优分类阈值为0.429，对应KS值为0.969，表明模型具有极强的区分能力。图7C，D分别展示累积增益曲线与提升度曲线，结果显示增益曲线明显偏离随机选择基线，说明模型对两类样本的识别能力远高于随机分类。综上所述，IDMPM在实际应用中表现出良好的泛化能力和稳健性。

2.9 IDMPM的可解释性分析结果为增强IDMPM的可解释性，此次研究引入SHAP框架，从全局视角及样本决策过程出发分析糖尿病发生风险的主要影响因素。
为了从全局角度分析各特征对模型输出的贡献及正负效应，图8展示了特征的SHAP汇总图，每个点表示一个样本，颜色从红到蓝表示该特征的取值从高到低，每一行的颜色分布反映该特征在所有样本中对模型输出的影响。从贡献度来看，肱三头肌皮褶厚度对糖尿病风险预测贡献最大，随后依次为为胰岛素释放测试、体质量指数、口服葡萄糖耐量测试、舒张压及年龄等特征。从正负效应来看，上述特征对模型预测均表现出不同程度的正向影响。下文将对这些关键特征进行具体解析。
三头肌皮褶厚度在糖尿病风险预测中具有重要作用：样本的三头肌皮褶厚度越大，其对应的SHAP值也越高，模型更倾向于将该样本预测为糖尿病患者，说明该特征对模型具有显著的正向作用。三头肌皮褶厚度可反映机体脂肪含量，脂肪过多可能导致胰岛素抵抗，进而增加患糖尿病

的风险，因此该特征在糖尿病风险预测中具有重要意义。
胰岛素释放试验有助于糖尿病的初步分型诊断：胰岛素释放试验值越高，其SHAP值越大，模型更倾向于将该样本预测为糖尿病患者，说明胰岛素释放试验特征对模型具有显著的正向贡献。该指标用于评估胰岛β细胞功能，有助于识别胰岛素分泌延迟等异常情况，虽不能直接用于糖尿病的确诊，但在疾病早期筛查与分型中具有参考价值。
体质量指数升高会增加2型糖尿病的发病风险：体质量指数值越高，其对应的SHAP值越大，模型更可能判断为糖尿病患者，表明体质量指数特征对模型具有正向作用。体质量指数是判断个体是否超重或肥胖的重要指标，而肥胖是2型糖尿病的主要危险因素之一。过多脂肪组织会降低胰岛素的作用效率，从而增加患病风险。
口服葡萄糖耐量试验是糖尿病的金标准诊断方法：口服葡萄糖耐量测试值越高，其对应的SHAP值也越高，模型更倾向于预测糖尿病。该指标用于综合评估个体空腹及餐后血糖水平，已广泛应用于临床，是糖尿病确诊的重要依据。
高血压患者患糖尿病的风险更高：舒张压越高，其对应的SHAP值越大，模型预测糖尿病的可能性越高。高血压与糖尿病常共同发生，其共有的危险因素包括肥胖、不健康饮食、缺乏运动等，此外，高血压还可能引发胰岛素抵抗与慢性炎症反应。因此，舒张压是评估糖尿病风险的重要特征之一。
同时，除肱三头肌皮褶厚度、胰岛素释放测试等指标外，遗传因素和性别这2个变量在贡献度排序中重要性靠后，提示家族史对糖尿病对个体预测影响小。

参考文献

[1] DOĞRU A, BUYRUKOĞLU S, ARI M. A hybrid super ensemble learning model for the early-stage prediction of diabetes risk. Med Biol Eng Comput. 2023;61(3):785-797.
[2] YAMENY AA. Diabetes mellitus overview 2024. J Biosci Appl Res. 2024;10(3):641-645.
[3] 吕晓燕,郭威,崔宇琛.基于UCI数据库的糖尿病发病影响因素分析及预测模型构建[J].护理研究,2022,36(5):888-891.
[4] 李娟,吴疆,卢莉,等.基于支持向量机建立环境和遗传因素对2型糖尿病的预测模型[J].中华疾病控制杂志,2012,16(2):171-175.
[5] VAN RAALTE DH, BJORNSTAD P, CHERNEY DZI, et al. Combination therapy for kidney disease in people with diabetes mellitus. Nat Rev Nephrol. 2024;20(7): 433-446.
[6] DAGLIATI A, MARINI S, SACCHI L, et al. Machine learning methods to predict diabetes complications. J Diabetes Sci Technol. 2018;12(2):295-302.
[7] COLAGIURI S, DAVIES D. The value of early detection of type 2 diabetes. Curr Opin Endocrinol Diabetes Obes. 2009;16(2):95-99.
[8] HOSSAIN MJ, AL-MAMUN M, ISLAM MR. Diabetes mellitus, the fastest growing global public health concern: Early detection should be focused. Health Sci Rep. 2024;7(3):e2004.
[9] DE HOLANDA WD, E SILVA LC, SOBRINHO ÁACC. Machine learning models for predicting hospitalization and mortality risks of COVID-19 patients. Expert Syst Appl. 2024;240:122670.
[10] CHEHELTANI R, KING N, LEE S, et al. Predicting misdiagnosed adult-onset type 1 diabetes using machine learning. Diabetes Res Clin Pract. 2022;191:110029.
[11] NICOLUCCI A, ROMEO L, BERNARDINI M, et al. Prediction of complications of type 2 Diabetes: A Machine learning approach. Diabetes Res Clin Pract. 2022; 190:110013.
[12] ISLAM MA, MAJUMDER MZH, HUSSEIN MA. Chronic kidney disease prediction based on machine learning algorithms. J Pathol Informat. 2023;14:100189.
[13] CHU S, JIANG A, CHEN L, et al. Machine learning algorithms for predicting the risk of fracture in patients with diabetes in China. Heliyon. 2023;9(7):e18186.
[14] ABEL ED, GLOYN AL, EVANS-MOLINA C, et al. Diabetes mellitus—Progress and opportunities in the evolving epidemic. Cell. 2024;187(15):3789-3820.
[15] TANAKA M, AKIYAMA Y, MORI K, et al. Predictive modeling for the development of diabetes mellitus using key factors in various machine learning approaches. Diabetes Epidemiol. Manag. 2024;13:100191.
[16] CHENG WHG, DONG W, TSE ETY, et al. External validation of the Hong Kong Chinese non-laboratory risk models and scoring algorithm for case finding of prediabetes and diabetes mellitus in primary care. J Diabetes Investig. 2024; 15(9):1317-1325.
[17] SHETH V, TRIPATHI U, SHARMA A. A Comparative Analysis of Machine Learning Algorithms for Classification Purpose. Procedia Comput Sci. 2022;215:422-431.
[18] LUBIS AF, HAQ HZ, LESTARI I, et al. Classification of diabetes mellitus sufferers eating patterns using k-nearest neighbors, naïve bayes and decision tree. Public Res J Eng Data Technol Comput Sci. 2024;2(1):44-51.
[19] YANG CH, YEH TM, LIAO MY. Rule extraction by support vector machine: a case study of type II diabetes mellitus diagnosis. IFAC Proc Vols. 2009;42(4):1685-1688.
[20] EKONG A, ATTIH I, JAMES G, et al. Effective classification of diabetes mellitus using support vector machine algorithm. Researchers J Sci Technol. 2024;4(2):18-34.
[21] GUPTA SC, GOEL N. Predictive Modeling and Analytics for Diabetes using Hyperparameter tuned Machine Learning Techniques. Procedia Comput Sci. 2023;218:1257-1269.
[22] NURDIN A, TANE MM, TUMEWU RWT, et al. Using Machine Learning for the Prediction of Diabetes with Emphasis on Blood Content. Procedia Comput Sci. 2023;227:990-1001.
[23] SU Y, HUANG C, YIN W, et al. Diabetes Mellitus risk prediction using age adaptation models. Biomed Signal Process Control. 2023;80:104381.
[24] NUGROHO K, MUSLIKH AR, IRIANANDA SW, et al. Integrating SMOTE-Tomek and Fusion Learning with XGBoost Meta-Learner for Robust Diabetes Recognition. J Future Artif Intell Technol. 2024;1(1):23-38.
[25] EL-RASHIDY N, ELSAYED NE, EL-GHAMRY A, et al. Utilizing fog computing and explainable deep learning techniques for gestational diabetes prediction. Neural Comput Appl. 2023;35(10):7423-7442.
[26] RIZKY M, PRAMUNTADI A, PRASTOWO WD, et al. Implementasi Metode Deep Neural Network pada Klasifikasi Penyakit Diabetes Melitus Tipe 2: Implementation of Deep Neural Network Method on Classification of Type 2 Diabetes Mellitus Disease. MALCOM: Indonesian J Mach Learn Comput Sci. 2024;4(3):1043-1050.
[27] CHANDRAMOULI A, HYMA VR, TANMAYI PS, et al. Diabetes prediction using Hybrid Bagging Classifier. Entertain Comput. 2023;47:100593.
[28] RASTOGI R, BANSAL M. Diabetes prediction model using data mining techniques. Meas Sensors. 2023;25:100605.
[29] FEBRIAN ME, FERDINAN FX, SENDANI GP, et al. Diabetes prediction using supervised machine learning. Procedia Comput Sci. 2023;216:21-30.
[30] MANSOORI A, SAHRANAVARD T, HOSSEINI Z S, et al. Prediction of type 2 diabetes mellitus using hematological factors based on machine learning approaches: a cohort study analysis. Sci Rep. 2023;13(1):663.
[31] BYEON H. Determinants of blood pressure control in hypertensive individuals using histogram-based gradient boosting: findings from 1114 male workers in South Korea. J Men’s Health. 2024;20:47-55.
[32] SHAMS MY, ELSHEWEY AM, EL-KENAWY ESM, et al. Water quality prediction using machine learning models based on grid search method. Multimed Tools Appl. 2024;83(12):35307-35334.
[33] LUNDBERG SM, LEE SI. A unified approach to interpreting model predictions. Adv Neural Inf Process Syst. 2017;30:4768-4777.
[34] LIN K, GAO Y. Model interpretability of financial fraud detection by group SHAP. Expert Syst Appl. 2022;210:118354.
[35] KRZYZIŃSKI M, SPYTEK M, BANIECKI H, et al. SurvSHAP (t): Time-dependent explanations of machine learning survival models. Knowl-Based Syst. 2023;262: 110234.
[36] CAKIROGLU C, DEMIR S, OZDEMIR MH, et al. Data-driven interpretable ensemble learning methods for the prediction of wind turbine power incorporating SHAP analysis. Expert Syst Appl. 2024;237:121464.
[37] ZHONG L, GUO X, DING M, et al. SHAP values accurately explain the difference in modeling accuracy of convolution neural network between soil full-spectrum and feature-spectrum. Comput Electron Agric. 2024;217:108627.
[38] CHOU CY, HSU DY, CHOU CH. Predicting the onset of diabetes with machine learning methods. J Pers Med. 2023;13(3):406.
[39] KRENTZ NAJ, GLOYN AL. Insights into pancreatic islet cell dysfunction from type 2 diabetes mellitus genetics. Nat Rev Endocrinol. 2020;16(4):202-212.
[40] EJIYI CJ, QIN Z, AMOS J, et al. A robust predictive diagnosis model for diabetes mellitus using Shapley-incorporated machine learning algorithms. Healthc Analyt. 2023;3:100166.

引言

糖尿病是一种常见的慢性代谢性疾病，主要由于胰岛素分泌不足或作用受限导致血糖持续升高[1-2]。正常情况下，胰岛素能够促进葡萄糖进入细胞，为机体提供能量，然而，当胰岛素功能受损时，葡萄糖在血液中积聚形成高血糖状态。长期高血糖不仅会影响患者的生活质量，还可能造成心脏、肾脏、神经系统和眼部等多器官损伤，最终引发肾衰竭、失明、神经病变、心血管事件等严重并发症。根据国际糖尿病联盟发布的《全球糖尿病地图(第10版)》，截至2021年，全球已有超过5.3亿成年人患有糖尿病，约占全球成年人口的10%，并预计将在2030年增至6.4亿，到2045年可能突破7.8亿。
值得注意的是，糖尿病的发生不仅与生活方式和代谢状态密切相关，还受遗传因素的显著影响。遗传因素为家族糖尿病史(如父母或叔叔姑姑患病)，流行病学研究显示家族糖尿病史是糖尿病最重要的遗传风险因素之一，医护人员可通过健康指导和临床干预进行控制，降低患病风险[3]。近年来的基因组研究进一步发现，单核苷酸多态性位点(如单核苷酸多态性34和单核苷酸多态性37)与胰岛素分泌调节及糖代谢异常密切相关，是糖尿病的潜在易感基因[4]。因此，将遗传因素(尤其是家族史或遗传易感标志物)纳入糖尿病风险预测模型，有助于更全面地评估个体患病风险，并为早期精准预防提供理论依据。同时，糖尿病在早期通常缺乏明显症状，尽管多饮、多尿、体质量减轻是该病的典型表现，但许多患者在发病初期并无自觉不适，直到并发症出现后才被确诊。研究表明，超过一半的糖尿病患者在确诊时已存在不同程度的器官损伤[5-6]。传统的筛查方式，如空腹血糖检测或口服葡萄糖耐量试验，虽然能够帮助识别高危人群，但在实际应用中受限于频率、成本和依从性等因素，难以实现广泛而及时的风险评估[7-8]。
因此，亟需构建一种更科学、便捷且具有可解释性的糖尿病风险预测工具，用于早期识别高危个体，辅助临床进行前移干预和健康管理。近年来，随着数据资源的丰富和计算技术的发展[9-14]，越来越多的研究开始探索如何利用机器学习算法来构建疾病风险预测模型。相比传统的统计方法，机器学习算法能够更好地处理大规模的医疗数据，挖掘隐藏在数据背后的模式和规律，从而提高预测的准确性和可靠性。目前，已有许多相关研究涉及到了各种机器学习算法在糖尿病风险预测方面的应用，例如逻辑回归[15-16]、朴素贝叶斯算法[17-18]、支持向量机[19-20]、随机森林[21-22]、XGboost和深度神经网络等[23-26]。研究者尝试利用人体测量指标(如体质量、体脂、血压)、家族病史、代谢参数等数据构建机器学习预测模型，为糖尿病早筛提供辅助支持[27-29]，但当前多数方法存在解释性差、推广能力弱、缺乏遗传因素考虑等问题，难以广泛应用于不同人群[30]。
为应对上述挑战，此次研究提出一种可解释的糖尿病预测模型(Interpretable Diabetes Mellitus Prediction Model，IDMPM)，结合家族遗传信息、人体测量特征和代谢相关指标构建融合特征数据集，通过可视化解释分析识别主要风险因子，提升模型的临床实用性和决策支持能力；另外，此次研究对象主要为2型糖尿病患者，同时也包含少量1型糖尿病患者，模型预测目标为总体糖尿病风险，暂未进行分型预测。此次研究的主要工作包括：整合遗传背景、基础体征和胰岛素代谢指标，构建全面的糖尿病风险评估数据集；构建高准确性预测模型，兼顾预测性能与泛化能力；引入可解释性分析框架，揭示关键风险因素，增强模型透明度，为个体化筛查和早期干预提供理论支持。
中国组织工程研究杂志出版内容重点：干细胞；骨髓干细胞；造血干细胞；脂肪干细胞；肿瘤干细胞；胚胎干细胞；脐带脐血干细胞；干细胞诱导；干细胞分化；组织工程

材料方法

1 资料和方法 Data and methods
1.1 设计横断面研究，基于公开数据集构建融合特征数据集，整合个体的家族遗传信息、人体测量指标与代谢相关特征，采用多种机器学习算法构建糖尿病风险预测模型，并通过训练集与测试集验证模型性能。主要评估指标包括准确率、召回率、查准率、F1分数与受试者工作特征曲线下面积(Area Under the Curve，AUC)。为增强模型解释性，引入SHAP(SHapley Additive Explanations)框架对特征重要性进行分析。研究方案设计见图1。
1.2 时间及地点研究于2025年4月在新疆医科大学公共卫生学院完成。

1.3 资料研究所用数据来源于公开数据平台Kaggle网站(网址：https://www.kaggle.com/competitions/diabetes-classification)提供

的糖尿病预测竞赛数据集。该数据集共包含 6 875例受试者的健康信息，涵盖家庭糖尿病遗传史、人体测量指标(如年龄、体质量、身高、舒张压)和代谢相关指标(如口服葡萄糖耐量测试、胰岛素释放测试、肱三头肌皮褶厚度)。

伦理声明：该数据集为公开竞赛数据，所有受试者信息均已匿名化处理，不涉及个人隐私信息，原始数据集在公开时已通过数据提供方的伦理审批，因此，此次研究无需再次申请伦理审查。
样本筛选：在原始数据基础上，依据完整性及排除缺失变量等标准进行数据清洗与筛选，共纳入有效样本5 070例，其中糖尿病组1 936例、非糖尿病组3 134例。所有样本均随机分为训练集和测试集，保证模型的稳定性与泛化能力。
纳入标准：①患者年龄18-85岁之间，符合糖尿病主要流行于成年人群的流行病学特征，同时排除了高龄极端个体带来的偏倚；②数据信息完整，包含遗传信息、人体测量数据及代谢指标；③标注为糖尿病或非糖尿病，诊断依据明确。
排除标准：①缺失关键变量(如血糖、胰岛素、体质量指数或家族史等)；②样本记录存在逻辑错误或明显异常值(如体质量指数 > 100 kg/m2、空腹血糖< 1 mmol/L等)；③年龄或数值超出合理范围，疑似录入错误。
1.4 方法
1.4.1 数据处理流程为避免“数据窥探”问题，首先将原始融合数据集采用80%∶20%随机分组，使用random_state=42确保可复现性。随后，分别对训练集与测试集独立进行缺失值填充与One-Hot 编码，以确保后续建模处理的统一性与有效性。
1.4.2 模型构建与训练建模初期，此次研究共选取 11 种常见的机器学习模型进行比较，包括：轻量级梯度提升机、逻辑回归、支持向量机、K近邻算法、决策树、多层感知器、梯度提升决策树、自适应增强算法、随机森林、极端随机树、极端梯度提升机。
HistGBDT以其在处理大规模数据时的高效性和较低的内存消耗[31]，在初步比较中表现突出，因此选择HistGBDT作为最终建模算法。随后，利用网格搜索法对HistGBDT模型的超参数进行调优[32]，获得性能最优的参数组合。最终在测试集上评估模型的泛化性能，评价指标包括准确率、精确度、召回率、F1分数和AUC值，通过这些评价指标进行最优模型的选择。
1.4.3 可解释性分析为识别糖尿病患病风险的主要影响因素，引入SHAP解释框架对最终模型进行解释分析[33-37]。SHAP值来源于博弈论中的Shapley值概念，能量化每个特征对模型预测结果的贡献程度。最终通过SHAP值排序及可视化图(如条形图、热力图)展示关键预测因子在不同样本中所起的作用，增强模型临床应用的透明性。
1.4.4 综合性能评估采用5个主流分类模型评估指标对模型性能进行量化分析，包括：①准确率：模型预测正确的比例；②精确度：模型预测为阳性中真正阳性的比例；③召回率：所有实际阳性中被正确预测的比例；④ F1分数：精确度与召回率的调和平均；⑤AUC：AUC值越接近1表示分类性能越好。
此外，为进一步验证模型区分能力，此次研究还引入一致性统计量作为补充指标。
1.5 主要观察指标年龄、性别、体质量指数、舒张压、口服葡萄糖耐量测试、胰岛素释放测试、肱三头肌皮褶厚度、父母一方患病、叔姑一方患病、无亲属患病记录。此次研究最终纳入上述10个观测指标，其中数值型指标6项、遗传因素3项，另加性别等基础特征。遗传因素特征为家族糖尿病史(三类：父母有一方患病、叔叔/姑姑患病、无记录)，经One-Hot编码转化为稀疏二进制变量后纳入模型。

讨论

此次研究提出了一种高精度且具可解释性的糖尿病发病风险预测模型IDMPM，该模型在特征建模中融合了遗传因素、人体测量指标及胰岛素代谢指标，实现了对糖尿病风险的多维度建模。实验结果表明，IDMPM在准确率、精确率、召回率、F1分数值及AUC等指标上均优于现有主流模型，整体性能提升1%–4%。可解释性分析结果显示，肱三头肌皮褶厚度、胰岛素释放测试、体质量指数、口服葡萄糖耐量测试、舒张压是影响糖尿病发病风险的主要特征。
在特征建模方面，目前大多数研究仅基于人体测量指标和胰岛素代谢指标构建特征集，其中CHOU等[38]提出的模型性能最为优越。然而，KRENTZ等[39]指出糖尿病具有显著的遗传倾向，家族史是糖尿病的主要风险因素之一，基因变异可能影响胰岛素分泌、胰岛素受体敏感性以及葡萄糖代谢等关键生理过程，进而影响糖尿病的发病机制。尽管上述SHAP分析显示遗传因素在单个样本的预测贡献相对有限，但消融实验表明，当去除遗传因素后，模型在整体性能指标(如AUC和KS值)上出现一定下降，这提示遗传因素在模型中可能仍有助于捕捉部分复杂特征关系，从而对整体预测表现产生一定影响。因此，将遗传因素纳入模型仍体现了IDMPM在特征融合上的探索性和潜在价值。
在模型可解释性方面，此次研究将SHAP框架引入IDMPM，SHAP分析结果表明：肱三头肌皮褶厚度、胰岛素释放测试、口服葡萄糖耐量测试、舒张压等特征对模型的预测影响最大，这与EJIYI等[40]的研究结果略有不同，但同时两项研究均强调了体质量指数在糖尿病预测中的重要作用。从个体决策过程来看，此次研究对一个被正确预测为糖尿病患者的样本进行了可视化分析，清晰展现了各特征在模型预测中的贡献程度及其正负影响。综合分析表明，IDMPM具备良好的可解释性和临床分析价值。总之，此次研究提出的IDMPM融合遗传因素后预测性能显著提升，未来将扩展多中心数据并探索分型预测。
与已有研究相比，此次研究的优势在于引入遗传因素，增强了模型性能与可解释性；不足之处在于数据单一、缺乏多中心验证，模型的外推性有待进一步评估。未来工作将收集多中心数据进行模型验证，并尝试在模型构建中引入糖尿病分型预测，以进一步提升临床应用价值；同时将尝试引入深度学习模型，以其强大的特征提取与模式识别能力深入挖掘糖尿病的潜在表征特征，进一步提升模型对糖尿病的诊断能力。
中国组织工程研究杂志出版内容重点：干细胞；骨髓干细胞；造血干细胞；脂肪干细胞；肿瘤干细胞；胚胎干细胞；脐带脐血干细胞；干细胞诱导；干细胞分化；组织工程

融合遗传因素的糖尿病预测及影响因素分析

Diabetes prediction and analysis of influencing factors integrating genetic information

PDF

可视化

摘要/Abstract

引用本文

使用本文

图/表（结果） 11

参考文献

相关文章 15

引言

材料方法

讨论

文章快阅

延伸阅读

编辑推荐

Metrics

本文评价

[1]	史耀洲, 贾方林, 张鹤龄, 宋汉林, 高浩然, 高啸, 孙伟, 冯虎. 颈椎后路全椎板减压侧块螺钉内固定后轴性症状预测模型的建立与验证[J]. 中国组织工程研究, 2026, 30(9): 2269-2277.
[2]	赖家铭, 宋玉玲, 陈梓曦, 魏镜桓, 蔡浩, 李国权, . 放射性心脏损伤小鼠内皮细胞衰老的诊断标志物筛选及免疫浸润分析[J]. 中国组织工程研究, 2026, 30(6): 1450-1463.
[3]	吕晓凡, 黄懿, 丁留成. 糖尿病膀胱病的线粒体机制与干预治疗[J]. 中国组织工程研究, 2026, 30(6): 1508-1515.
[4]	张倩, 黄东锋. 加权基因共表达网络分析结合机器学习筛选及验证骨关节炎生物标记物[J]. 中国组织工程研究, 2026, 30(5): 1096-1105.
[5]	李广政, 李威, 张博淳, 丁浩秦, 周忠起, 李刚, 梁学振. 绝经后女性肌肉减少症预测模型：中国健康与养老全国追踪调查数据库信息分析[J]. 中国组织工程研究, 2026, 30(4): 849-857.
[6]	顾富城, 杨美鑫, 吴伟欣, 蔡玮俊, 钦洋溢, 孙铭一, 孙健, 耿秋东, 李楠, . 龟鹿二仙胶对膝骨关节炎大鼠肠道菌群的影响：机器学习与16S rDNA分析[J]. 中国组织工程研究, 2026, 30(4): 1058-1072.
[7]	黄韵诗, 柴林松, 倪静蕾, 左双, 林冰冰, 黄佳. 构建基于机器学习的脑卒中后失语症患者功能性语言沟通能力预测模型及评价[J]. 中国组织工程研究, 2026, 30(36): 9604-9612.
[8]	王槐旌, 郭锦荣, 万东平, 梅其杰, 袁景钊, 徐文飞, 曾超, 郑海军, 袁长深, 段戡. 多种机器学习鉴定抗菌肽作为骨关节炎钠死亡关键治疗靶点：细胞学验证[J]. 中国组织工程研究, 2026, 30(36): 9413-9422.
[9]	李文惠, 施陈燕, 杨怡彦, 柳国斌. 紫朱软膏调节血管生成促进糖尿病溃疡模型小鼠创面愈合[J]. 中国组织工程研究, 2026, 30(35): 9182-9188.
[10]	曹珊, 王焱皙, 段凯旋, 祁祥, 王昱涵. 消斑通脉方靶向miR-126-3p调控细胞自噬：防治动脉粥样硬化的生物信息学分析[J]. 中国组织工程研究, 2026, 30(35): 9355-9364.
[11]	杨化群, 阿布都艾尼江·阿不力米提, 王法正, 买买提沙吾提阿吉·麦麦提, 李斯密, 穆合塔尔·麦麦提热夏提. WGCNA及机器学习识别骨关节炎软骨细胞自噬和衰老特征基因[J]. 中国组织工程研究, 2026, 30(34): 8889-8898.
[12]	王学成, 赵亮, 魏周斌. 转化生长因子β调控氧化应激参与肺动脉高压的炎症发生[J]. 中国组织工程研究, 2026, 30(31): 8165-8173.
[13]	廖龙, 赵泽鹏, 李宗原, 余庆龙, 张滔, 唐晋元, 叶楠, 许瀚, 石波. Logistic回归及SHAP分析法建立股骨颈骨折内固定后股骨头坏死模型并验证[J]. 中国组织工程研究, 2026, 30(3): 626-633.
[14]	管昱杰, 赵彬 . 人工智能在脊柱侧弯筛查和诊断中的应用与展望[J]. 中国组织工程研究, 2026, 30(3): 721-730.
[15]	王志鹏, 张晓刚, 张宏伟, 赵希云, 李元贞, 郭成龙, 秦大平, 任真. 机器学习在腰椎间盘突出症患者预后预测模型中应用价值的系统评价[J]. 中国组织工程研究, 2026, 30(3): 740-748.