2.1 参与者数量分析 纳入有效样本5 070例,其中糖尿病组1 936例、非糖尿病组3 134例。
2.2 试验流程图 见图2。
2.3 训练组患者基线特征比较 结合图3糖尿病患者和非糖尿病患者的数值型特征核密度分布可见,不同特征在糖尿病组与非糖尿病组之间存在明显差异。具体而言,糖尿病患者的肱三头肌皮褶厚度、胰岛素释放测试、口服葡萄糖耐量测试以及体质量指数的分布整体向右偏移,峰值位置较非糖尿病组更高,提示该类特征在糖尿病患者中呈现显著增高趋势;而年龄与舒张压在两组间分布差异相对较小,但糖尿病组整体水平略高。上述结果表明,这些临床特征在区分糖尿病患者与非糖尿病人群方面具有一定的鉴别价值。
2.4 预测模型的构建 基于融合遗传因素的糖尿病特征建模数据集,选用默认参数的HistGBDT算法训练初始糖尿病预测模型IDMPM。为进一步验证HistGBDT模型在糖尿病融合数据集分类任务中的有效性,此次研究将IDMPM与11种主流机器学习模型(均采用默认参数)进行了性能比较。如表1所示,IDMPM在准确率、召回率、F1分数和AUC指标方面均优于其他主流模型,仅在精确率方面略低于Logistic回归和支持向量机。可以看出,基于树的集成模型(如自适应增强算法、随机森林、梯度提升决策树等)普遍比单一模型(如多层感知机、支持向量机、逻辑回归等)具有更高的预测性能,这是因为它们能有效集成多个差异化弱学习器,从而更好地捕捉融合数据中的复杂非线性关系。此次研究所提出的IDMPM模型在多种集成模型中表现最为突出,其优势主要得益于基础模型HistGBDT相较于传统梯度提升树在处理大规模数据时的显著性能提升。HistGBDT通过在每
轮迭代中构建特征直方图并计算其梯度,完成高效的节点分裂,显著提升了模型的计算效率并降低了内存消耗;此外,该基于直方图的策略增强了模型对特征的敏感性,使其能够更充分地识别潜在与糖尿病风险相关的重要特征,从而进一步提升模型的预测性能。
2.5 预测模型评价结果 图4展示了K近邻算法、极端梯度提升机、梯度提升决策树和IDMPM的学习曲线,其中蓝色曲线表示训练集结果、粉色曲线表示验证集结果。整体来看,K近邻算法模型的训练与验证得分虽随样本量增加而提升,但两者始终存在显著差距,表现出明显的欠拟合现象,提示其难以充分学
习数据中的非线性特征关系。相比之下,极端梯度提升机模型在训练集上的得分始终维持在1,而验证集得分增长缓慢,表明其存在严重过拟合。梯度提升决策树与IDMPM模型在训练与验证集上的得分均呈现收敛趋势,并且IDMPM模型的拟合效果更优,2条曲线间差距更小,模型表现更为稳定。从收敛速度来看,梯度提升决策树与IDMPM均能随着样本量的增加逐步逼近最优得分,但IDMPM的收敛速度更快,并且其性能随样本量的增加持续提升,体现出良好的可扩展性。综上所述,IDMPM在现有数据中表现出更强的学习能力与拟合效果。
2.6 消融实验结果 此次研究基于融合遗传因素的数据集进行了糖尿病特征建模,并训练出性能优于已有研究的预测模型。为进一步验证遗传因素在特征建模与模型训练中的作用与贡献,设计了消融实验。在实验中,将原始特征集中3项与遗传因素相关的变量去除,仅保留人体测量指标与胰岛素代谢指标,构建糖尿病风险预测模型。表2展示了对比实验的结果,结果表明:在去除遗传因素后,模型在各项性能指标上均出现不同程度下降,说明将遗传因素与常规变量融合进行特征建模能够更全面、更有效地刻画糖尿病的发病风险,使模型在训练过程中能够更充分地学习个体的遗传易感性,从而提升预测性能。
2.7 超参数调优与泛化能力分析结果 为进一步提升IDMPM的预测性能与鲁棒性,此次研究采用网格搜索技术对模型的超参数组合进行优化。选取对模型性能影响较大的5个超参数:learning_rate、max_iter、max_depth、max_leaf_nodes和 min_
samples_leaf,并按照如下步骤进行调参:①固定 learning_rate 和其他参数为默认值,采用五折交叉验证方法,确定模型理想的最大迭代次数 max_iter,初步构建模型结构;②将max_iter 更新为上述得到的最优值,并对max_depth、max_leaf_nodes和min_samples_leaf 三个参数进行网格优化,确定其最优组合;③在更新上述参数为最优值的基础上,对 learning_rate 进行微调,进一步确定使模型得分最优的学习率参数。
通过以上3步最终确定了IDMPM的最优超参数组合,具体结果如表3所示。图5展示了调整max_iter、max_depth和min_samples_leaf 参数对模型性能影响的验证曲线。值得注意的是,随着max_iter的增加,模型在训练集上的得分不断提高;当max_iter设置为35时,模型在交叉验证集上达到最优得分,说明该值为该参数的最优选择。同理,max_depth 和 min_samples_leaf 的最优取值分别为9和7。
如表4所示,经过超参数调优后模型的综合性能进一步提升,表明通过系统性地调整模型参数,IDMPM能够更好地适应糖尿病数据的特征分布、有效降低过拟合风险,提升模型的泛化能力与稳定性。
2.8 模型评估与可视化分析结果 为全面评估IDMPM在测试集上基于最优超参数组合的性能表现,采用包括KS曲线、受试者工作特征曲线及混淆矩阵在内的多种可视化工具进行分析。图6展示了4种模型在测试集上的混淆矩阵对比情况。测试集包含1 014例样本,其中非糖尿病患者627例、糖尿病患者387例。IDMPM在测试集上成功预测617例非糖尿病患者与380例糖尿病患者,仅将10例非糖尿病样本误判为糖尿病,将7例糖尿病样本误判为非糖尿病。与其他模型相比,IDMPM在未见数据上的预测效果最佳,显示出更高的准确性与稳定性。
图7A显示IDMPM的AUC值最大,显著优于其他模型,说明IDMPM的分类性能更优。图7B显示IDMPM的最优分类阈值为0.429,对应KS值为0.969,表明模型具有极强的区分能力。图7C,D分别展示累积增益曲线与提升度曲线,结果显示增益曲线明显偏离随机选择基线,说明模型对两类样本的识别能力远高于随机分类。综上所述,IDMPM在实际应用中表现出良好的泛化能力和稳健性。
2.9 IDMPM的可解释性分析结果 为增强IDMPM的可解释性,此次研究引入SHAP框架,从全局视角及样本决策过程出发分析糖尿病发生风险的主要影响因素。
为了从全局角度分析各特征对模型输出的贡献及正负效应,图8展示了特征的SHAP汇总图,每个点表示一个样本,颜色从红到蓝表示该特征的取值从高到低,每一行的颜色分布反映该特征在所有样本中对模型输出的影响。从贡献度来看,肱三头肌皮褶厚度对糖尿病风险预测贡献最大,随后依次为为胰岛素释放测试、体质量指数、口服葡萄糖耐量测试、舒张压及年龄等特征。从正负效应来看,上述特征对模型预测均表现出不同程度的正向影响。下文将对这些关键特征进行具体解析。
三头肌皮褶厚度在糖尿病风险预测中具有重要作用:样本的三头肌皮褶厚度越大,其对应的SHAP值也越高,模型更倾向于将该样本预测为糖尿病患者,说明该特征对模型具有显著的正向作用。三头肌皮褶厚度可反映机体脂肪含量,脂肪过多可能导致胰岛素抵抗,进而增加患糖尿病
的风险,因此该特征在糖尿病风险预测中具有重要意义。
胰岛素释放试验有助于糖尿病的初步分型诊断:胰岛素释放试验值越高,其SHAP值越大,模型更倾向于将该样本预测为糖尿病患者,说明胰岛素释放试验特征对模型具有显著的正向贡献。该指标用于评估胰岛β细胞功能,有助于识别胰岛素分泌延迟等异常情况,虽不能直接用于糖尿病的确诊,但在疾病早期筛查与分型中具有参考价值。
体质量指数升高会增加2型糖尿病的发病风险:体质量指数值越高,其对应的SHAP值越大,模型更可能判断为糖尿病患者,表明体质量指数特征对模型具有正向作用。体质量指数是判断个体是否超重或肥胖的重要指标,而肥胖是2型糖尿病的主要危险因素之一。过多脂肪组织会降低胰岛素的作用效率,从而增加患病风险。
口服葡萄糖耐量试验是糖尿病的金标准诊断方法:口服葡萄糖耐量测试值越高,其对应的SHAP值也越高,模型更倾向于预测糖尿病。该指标用于综合评估个体空腹及餐后血糖水平,已广泛应用于临床,是糖尿病确诊的重要依据。
高血压患者患糖尿病的风险更高:舒张压越高,其对应的SHAP值越大,模型预测糖尿病的可能性越高。高血压与糖尿病常共同发生,其共有的危险因素包括肥胖、不健康饮食、缺乏运动等,此外,高血压还可能引发胰岛素抵抗与慢性炎症反应。因此,舒张压是评估糖尿病风险的重要特征之一。
同时,除肱三头肌皮褶厚度、胰岛素释放测试等指标外,遗传因素和性别这2个变量在贡献度排序中重要性靠后,提示家族史对糖尿病对个体预测影响小。