对比6种适用于医学领域使用的机器学习模型：支持骨质疏松症筛查和初步诊断

doi:10.12307/2025.947

中国组织工程研究 ›› 2025, Vol. 29 ›› Issue (35): 7499-7510.doi: 10.12307/2025.947

• 骨组织构建 bone tissue construction • 上一篇下一篇

对比6种适用于医学领域使用的机器学习模型：支持骨质疏松症筛查和初步诊断

杨磊1，刘三毛2，3，孙焕伟3，车超1，唐琳1

1大连大学软件工程学院，辽宁省大连市 116622；2广西医科大学第一附属医院，广西壮族自治区南宁市 530021；3大连理工大学附属中心医院，辽宁省大连市 116033

收稿日期:2024-10-11 接受日期:2024-12-10 出版日期:2025-12-18 发布日期:2025-04-30
通讯作者: 唐琳，博士，副教授，大连大学软件工程学院，辽宁省大连市 116622
作者简介:杨磊，男，1998年生，内蒙古自治区呼伦贝尔市人，大连大学在读硕士，主要从事医学信息学和机器学习方法的研究。
基金资助:
国家自然科学基金面上项目(62076045)，项目负责人：车超；大连大学学科交叉项目(DLUXK-2023-YB-003)，项目负责人：车超

Comparison of six machine learning models suitable for use in medicine: support for osteoporosis screening and initial diagnosis

Yang Lei1, Liu Sanmao2, 3, Sun Huanwei3, Che Chao1, Tang Lin1

1School of Software Engineering, Dalian University, Dalian 116622, Liaoning Province, China; 2The First Affiliated Hospital of Guangxi Medical University, Nanning 530021, Guangxi Zhuang Autonomous Region, China; 3The Affiliated Central Hospital of Dalian University of Technology, Dalian 116033, Liaoning Province, China

Received:2024-10-11 Accepted:2024-12-10 Online:2025-12-18 Published:2025-04-30
Contact: Tang Lin, PhD, Associate professor, School of Software Engineering, Dalian University, Dalian 116622, Liaoning Province, China
About author:Yang Lei, Master candidate, School of Software Engineering, Dalian University, Dalian 116622, Liaoning Province, China
Supported by:
National Natural Science Foundation of China, No. 62076045 (to CC); Dalian University Discipline Crossing Project, No. DLUXK-2023-YB-003 (to CC)

摘要/Abstract

摘要：

文题释义：
集成学习：是一种机器学习方法，它结合多个模型来提高预测性能和鲁棒性。集成学习通常包括多种类型子模型，这些子模型分别进行训练，并通过投票、平均或加权合并等方式整合预测结果，能够减少过拟合的风险，提高模型的泛化能力，达到更高的预测准确率。
SHAP：即SHapley Additive exPlanations，是一种可解释性框架，常被用于解释机器学习模型的预测结果。它基于博弈论中的沙普利值(Shapley values)，通过量化每个特征对模型预测的贡献度来进行解释。SHAP方法能够帮助研究者和医生理解模型做出特定预测的原因，从而提高模型的透明度和可信度。

背景：随着社会人口老龄化程度加剧，骨质疏松症发病率正逐年递增，相应的筛查和诊断需求给医疗系统带来了巨大挑战，也增加了患者接受检查的时间成本、经济负担和辐射暴露的风险。
目的：构建基于传统CT检查数据和人口统计学数据的新型可解释性预测方法。
方法：设计了一个两阶段可解释性骨质疏松预测框架。第1阶段，采用人机协同标注CT图像，创新性地提出了椎骨7点CT值测量方法，并将患者的性别与年龄作为关键人口统计学特征纳入特征集，显著丰富了模型的输入信息；第2阶段，在LightGBM模型的基础上，引入了SHAP(SHapley Additive exPlanations)方法，对特征重要性进行定量分析，从而增强模型预测结果的可解释性，提升临床可操作性与信任度。通过系统性实验，对不同特征组合与6种机器学习模型进行对比分析，验证所提出框架的有效性与最优特征组合的稳定性。为进一步评估模型的泛化能力，研究还在外部独立数据集上进行了验证。
结果与结论：实验对比了6种适用于医学领域使用的机器学习模型，结果显示LightGBM模型F1分数为0.902 2，曲线下面积为0.938 7，高于其他模型。在可解释性方面，通过排序并可视化输入特征对结果的贡献程度，提升了模型在临床应用中的可信度和可操作性。此外，该研究实现了原型系统，测试结果显示系统操作简便，能快速处理数据给出预测结果，且可视化结果具有较好的可解释性，能够有效辅助医生进行临床决策，为骨质疏松症的筛查和初步诊断提供了有力支持。

https://orcid.org/0000-0002-4538-0225(唐琳)

中国组织工程研究杂志出版内容重点：组织构建；骨细胞；软骨细胞；细胞培养；成纤维细胞；血管内皮细胞；骨质疏松；组织工程

关键词: 骨质疏松, CT, 临床辅助决策, 临床决策支持, 可解释性预测模型, 集成学习, LightGBM模型, SHAP

Abstract: BACKGROUND: With the increasing degree of population aging in China, the incidence of osteoporosis is rising annually. This growing demand for screening and diagnosis poses significant challenges to the healthcare system, increasing the time costs, financial burdens, and radiation exposure risks for patients.
OBJECTIVE: To develop a novel interpretable prediction method based on traditional CT examination data and demographic data, aiming to reduce the number of patient examinations and enable multiple screenings from one examination.
METHODS: A two-stage interpretable framework for osteoporosis prediction was designed. In the first stage, a human-computer collaborative method was used for annotating CT images, with an innovative vertebra 7-point CT value measurement technique. Patient’s sex and age were used as key demographic features to enrich the model’s input. In the second stage, the LightGBM model was enhanced by SHapley Additive exPlanations for quantitative analysis of feature importance, improving the interpretability of predictions and increasing clinical trust. Systematic experiments validated the effectiveness of the framework and the stability of the optimal feature set through the comparative analysis of different feature combinations with six machine learning models. To further assess the generalization ability of the model, the model was further tested on an external dataset.
RESULTS AND CONCLUSION: The experiment compared six machine learning models suitable for medical applications, and the results showed that LightGBM model achieved an F1 score of 0.902 2 and an area under the curve of 0.938 7, outperforming the other models. In terms of interpretability, the clinical application credibility and operability of the model was increased by ranking and visualizing the contribution of input features to the results. Additionally, this study realized a prototype system, and testing results indicated that the system is user-friendly, capable of quickly processing data to provide prediction results, with visualized outcomes demonstrating good interpretability. This system effectively assists doctors in clinical decision-making and provides robust support for the screening and preliminary diagnosis of osteoporosis.

Key words: osteoporosis, CT, clinical decision aid, clinical decision support, interpretable predictive modeling, integrated learning, LightGBM model, SHapley Additive exPlanations

中图分类号:

杨磊, 刘三毛, 孙焕伟, 车超, 唐琳. 对比6种适用于医学领域使用的机器学习模型：支持骨质疏松症筛查和初步诊断[J]. 中国组织工程研究, 2025, 29(35): 7499-7510.

Yang Lei, Liu Sanmao, Sun Huanwei, Che Chao, Tang Lin. Comparison of six machine learning models suitable for use in medicine: support for osteoporosis screening and initial diagnosis[J]. Chinese Journal of Tissue Engineering Research, 2025, 29(35): 7499-7510.

图/表（结果） 10

2.1 多种特征组合方案比较对数据集纳入特征进行了均值、方差和显著性的统计，结果如表5所示。根据表中数据可知，实验数据集纳入特征的数据分布合理。各特征数据P值均 < 0.05，存在显著差异。

机器学习模型在医学预测问题中扮演着越来越重要的角色[27]，尤其是在疾病的早期检测和诊断方面[28-30]。该研究选择对比了适用于医学预测问题的模型，包括支持向量机(SVM)[31-32]、K近邻算法(KNN)[33]、极端梯度提升(XGBoost)[34-35]、随机森林(RandomForest)[36]、决策树(DecisionTree)[37-38]、线性模型(LinearModel)[39]、轻量梯度提升机(LightGBM)这7种模型[40-41]，目的是为了全面评估它们在骨质疏松症诊断中的表现。这些模型涵盖了从简单易解释的线性模型到复杂且性能优越的集成学习模型，考虑了模型的多样性和全面性。通过对比实验最终筛选出最适合骨质疏松预测的模型，为骨质疏松症的诊断提供可靠的模型支持。
由于测定数值范围存在差异，为消除不同量纲对机器学习算法和模型训练的影响，对数据进行归一化处理，将所有特征归一化，使得模型能够更准确地捕捉特征之间的关系，提高模型的性能和泛化能力。为了避免模型受到异常值的影响，选择Z-Score标准化来对数据处理，其转化公式为：
x’=(x-μ)/δ (1)
其中，x为原始数据，x’为经过归一化处理后的数据，μ为原始数据集的均值，δ为原始数据集的标准差。
特征数据经过归一化处理后，采用随机抽样的方法按8∶2的比例将数据集划分为训练集和测试集。该研究对比了上述7个模型在6种不同特征选择方案下的最优表现，并通过F1分数和曲线下面积值评估不同特征组合在骨质疏松预测任务上的性能表现。
由图3可见，该研究提出的7点CT值测量方法，即特征组合方案data_6在不同模型的关键指标受试者工作特征曲线下面积和F1分数方面表现出了明显的性能提升。与data_1相比，平均曲线下面积提高了约10.89%，平均F1分数提高了约6.26%；相较于data_2，平均曲线下面积提高了约2.14%，平均F1分数提高了约2.01%；与data_3相比，平均曲线下面积提高了约5.92%，平均F1分数提高了约6.28%；与data_4相比，平均曲线下面积提高了约12.19%，平均F1分数提高了约10.44%。data_5和data_6在平均曲线下面积与平均F1分数上表现相当，data_6的最佳曲线下面积为0.878 3，高于data_5的0.860 5；data_6的最佳F1分数为0.889 6，也高于data_5的0.887 6。
综上所述，特征选择方案data_6展示了在骨质疏松症诊断中的适用性和有效性，印证了该研究提出的7点CT值测量方法的合理性和有效性。
2.2 多种机器学习模型预测结果比较在最优特征组合方案data_6的基础上，实验采用随机抽样的方法按8∶2的比例将数据集划分为训练集和测试集。深入对比了7种机器学习算法在测试集上的多种指标，包括特异度、敏感度、精确率、召回率、F1分数、准确率和曲线下面积的表现，如表6所示，最终LightGBM表现最佳。
受试者工作特征曲线不仅能够展示模型在不同阈值下的表现，还能揭示模型在真实应用场景中的分类能力，更直观地评估模型在各种操作条件下的性能差异。图4可视化了上述7种机器学习模型在特征组合方案data_6上

的受试者工作特征曲线，其中LightGBM曲线在大部分阈值范围内表现最优，进一步表明了LightGBM在骨质疏松症预测任务中具有显著的分类能力和较高的适用性。
除此之外，LightGBM还具有高效训练和较低计算成本的优势。它通过基于直方图的算法和优化的分裂策略，显著加快了模型的训练速度，同时减少了内存使用，这使得LightGBM不仅在大规模数据集上表现出色，还能够处理高维特征，从而提高了整体计算效率和模型的可扩展性。因此，LightGBM在骨质疏松症预测任务中，不仅提供了优异的预测性能，还具备了高效的训练优势。
该研究采用网格搜索方法优化模型超参数[42]，以寻找模型的最佳表现，进而提升模型性能。网格搜索方法可以避免手动参数调整所带来的主观偏见、经验有限以及可能遗漏潜在优化点的影响。以LightGBM模型为例，实验中最终优化的超参数如表7所示。

该研究采用约登指数计算分类的最佳阈值[43]。约登指数定义为真正例率与假正例率之间的差值。通过最大化约登指数，确定最优的分类阈值，以实现真正例率和假正例率的最佳平衡。实验计算得到的最优阈值为0.707 4。
换言之，当模型预测样本为非骨质疏松的概率值≥0.707 4时，该样本被分类为非骨质疏松；反之，则被分类为骨质疏松。图5使用散点图可视化了模型在测试集上的预测结果与金标准结果。
图6数据展示了LightGBM模型在不同训练样本数量下训练损失和交叉验证损失的变化趋势。横轴表示训练样本的数量，纵轴为对数损失值。分析结果显示，随着训练样本数量的增加，训练损失(红色曲线)和交叉验证损失(绿色曲线)均逐渐降低。这一趋势表明，模型在更大的数据集上训练后预测性能得到了增强。在样本数量较少时(例如少于100个样本)，训练损失迅速下降；而当样本数量达到150个左右时，损失的下降速度开始减缓，并逐渐趋于稳定，这表明模型的性能得到了稳定，泛化能力得到了提升。随着样本量的增加，两条曲线趋于接近，显示了模型在处理新数据时的适应性和稳定性，同时避免了过拟合。这些结果证实了LightGBM在骨质疏松症预测任务中，即便在样本量有限的情况下，也能展现出较好的泛化能力和可靠性。
2.3 可解释性骨质疏松预测框架尽管机器学习和人工智能在现代医学领域取得了显著进展，但难以深入解释内部运作过程，缺乏解释性会限制实际应用。在医学领域，需要明确的合理性和解释性，以确保临床医生和患者能够理解和信任模型的输出。为了解决这一问题，该研究引入了SHAP框架中的Tree SHAP，实现LightGBM模型进行可解释分析，生成的摘要图既可以呈现整体视角下骨质疏松相关特征重要性，又可以呈现每个特征对单个样本的影响。图7展示了整体视角下不同特征对预测骨质疏松症的影响程度，按重要程度由高到低排名依次是L-m，rt，gender，lt，L-u，age，L-l，lf，lr。L-m与骨质疏松症密切相关，符合临床观察结果。
图8进一步展示了模型预测过程中各特征的依赖关系，其中横轴表示特征值，纵轴代表该特征的SHAP值。SHAP值小于0意味着该特征在特定取值下对模型预测样本为骨质疏松有正向贡献，即该特征使得样本可能被预测为骨质疏松。反之亦然。此外，SHAP值的绝对值越大，表明该特征对模型预测结果的影响越大。
SHAP还能够集中可视化展示单个样本中各特征对预测结果的贡献，直观地呈现特征对模型预测的影响，如图9所示。其中，基准值(base value)表示预测结果正负概率相等。红色和蓝色特征的位置与基准值相比越向右偏移，表示预测为正例的概率越高，即被判断为非骨质疏松可能性越大。图9表示预测为非骨质疏松的概率高。红色特征表示对非骨质疏松预测的正向贡献，宽度反映了该特征贡献的强度，并按影响强度对特征进行了排序，L-m，rt，lt的CT值对结果影响较大。相反，蓝色特征表示对骨质疏松预测的负向贡献，影响强度的显示方式和排序与红色特征相同，属性gender=1表示性别为女性，该属性有负向影响。
2.4 基于可解释性骨质疏松预测框架的原型系统构建基于该研究提出的可解释性骨质疏松预测框架，设计并开发了相应原型系统，旨在为临床医生、骨科专家、放射科医生等医疗专业人员及骨质疏松研究领域的科研人员提供落地实现原型，进一步展示该研究提出方法的实用性。所实现的原型系统采用B/S架构设计，基于Java的Spring Boot和VUE框架开发网站，基于Python训练并实现可解释性骨质疏松预测模型，同时基于Flask搭建了Python后端应用。使得用户无需安装客户端软件，只需通过Web浏览器即可访问系统。具体而言，首先用户通过页面输入患者相关信息后，单击预测按钮，网站会调用后端应用中的可解释性骨质疏松预测模型进行预测，并将预测结果返回至网站，通过前端页面展示预测类别、骨质疏松概率及SHAP分析的可视化结果。
2.5 患者L1-L4椎骨预测能力分析针对不同的椎骨预测结果，进一步进行对比分析，包括患者分别使用L1、L2、L3、L4椎骨分别作为样本的预测结果，指标范围包括特异度、敏感度、准确率、召回率、F1分数、精确率、曲线下面积，如表8所示。

2.6 不同标注方法对预测的影响分析在实际患者诊断中，针对患者是否患有骨质疏松，是对某一个椎骨进行诊断且仅考虑有骨质疏松的椎骨，如果存在骨质疏松椎骨即判定患者所有椎骨为骨质疏松，还是综合衡量L1-L4椎骨，相关临床决策并没有明确的金标准。因此，该研究采用上述3种不同的方式分别标注样本，第1种标注方式(A)即前文中实验的标注方式，根据双能X射线吸收法测得的对应椎骨的T值进行细粒度标注；第2种标注方式(B)即患者如果L1-L4中包含任意一个可判定为骨质疏松的椎骨，则患者的L1-L4 4个样本均标注为骨质疏松；第3种标注方式(C)根据双能X射线吸收法针对L1-L4给出的综合判定结果，标注患者L1-L4 4个样本。比较了不同标注方式下的结果准确性，统计结果如表9所示。
2.7 基于外部数据集验证模型适用性该研究从同一家医院收集了不同时间段的患者数据，构建了外部数据集，用于验证模型的适用性。通过使用时间上独立的数据集进行测试，评估模型对不同时间点不同患者群体具有稳定性与泛化能力，从而确保在实际临床应用中的可靠性。

对外部数据集纳入特征进行了均值、方差和显著性统计和检验，如表10所示，外部数据集的数据分布合理，证实了外部数据集的代表性。
基于外部数据集进行模型适用性验证。表11中各椎骨和不区分样本的指标表现与前文原始数据测试集结果(表8)基本保持一致。其中，L1和L4椎骨的各项指标较L2和L3更高，与测试集结果一致。整体样本(不区分椎骨)的F1分数及曲线下面积分别达到0.919 2与0.926 3。模型预测的F1分数与曲线下面积均与原始数据测试集表现相当，这表明模型在外部数据集上对骨质疏松和非骨质疏松样本的分类能力保持稳定，进一步验证了良好的泛化能力和跨时间段数据的一致性，证实了模型的适用性。
图10展示了外部数据的模型预测结果与实际T值之间的关系。图中显示了预测概率与真实T值的正相关性，即T值越高(非骨质疏松倾向)，模型预测的“非骨质疏松”概率越接近1。预测结果与临床金标准双能X射线吸收法测量的T值具有较高的一致性，而且与测试集(图5)的分布一致，进一步验证了模型在外部数据集上的可靠性和临床适用性。

参考文献

[1] SONG S, GUO Y, YANG Y, et al. Advances in pathogenesis and therapeutic strategies for osteoporosis. Pharmacol Ther. 2022;237:108168.
[2] RACHNER TD, KHOSLA S, HOFBAUER LC. Osteoporosis: now and the future. Lancet. 2011;377(9773):1276-1287.
[3] LÖFFLER MT, JACOB A, SCHARR A, et al. Automatic opportunistic osteoporosis screening in routine CT: improved prediction of patients with prevalent vertebral fractures compared to DXA. Eur Radiol. 2021;31(8):6069-6077.
[4] 孟凡,董敏洁,郭瑾,等.区老年人骨质疏松患病情况及全科防控策略[J]. 中国全科医学,2023,26(22):2778-2784.
[5] 朱洁云,高敏,宋秋韵,等.中国老年人骨质疏松症患病率的Meta分析[J].中国全科医学,2022,25(3):346-353.
[6] 中华医学会骨质疏松和骨矿盐疾病分会,章振林.原发性骨质疏松症诊疗指南(2022)[J].中国全科医学,2023,26(14):1671-1691.
[7] 国家统计局,国务院第七次全国人口普查领导小组办公室.第七次全国人口普查公报(第五号)：人口年龄构成情况[J].中国统计,2021(5):10-11.
[8] WANG L, YU W, YIN X, et al. Prevalence of Osteoporosis and Fracture in China: The China Osteoporosis Prevalence Study. JAMA Netw Open. 2021;4(8):e2121106.
[9] SI L, WINZENBERG TM, JIANG Q, et al. Projection of osteoporosis-related fractures and costs in China: 2010-2050. Osteoporos Int. 2015;26(7):1929-1937.
[10] ZENG Q, LI N, WANG Q, et al. The Prevalence of Osteoporosis in China, a Nationwide, Multicenter DXA Survey. J Bone Miner Res. 2019;34(10):1789-1797.
[11] 中国健康促进基金会基层医疗机构骨质疏松症诊断与治疗专家共识委员会.基层医疗机构骨质疏松症诊断和治疗专家共识(2021)[J].中国骨质疏松杂志,2021,27(7):937-944.
[12] PICKHARDT PJ, CORREALE L, HASSAN C. AI-based opportunistic CT screening of incidental cardiovascular disease, osteoporosis, and sarcopenia: cost-effectiveness analysis. Abdom Radiol (NY). 2023;48(3):1181-1198.
[13] GAO L, MOODIE M, WATTS JJ, et al. Cost-Effectiveness of Osteoporosis Opportunistic Screening Using Computed Tomography in China. Value Health Reg Issues. 2023;38:38-44.
[14] SHIM JG, KIM DW, RYU KH, et al. Application of machine learning approaches for osteoporosis risk prediction in postmenopausal women. Arch Osteoporos. 2020;15(1):169.
[15] BUI HM, HA MH, PHAM HG, et al. Predicting the risk of osteoporosis in older Vietnamese women using machine learning approaches. Sci Rep. 2022;12(1): 20160.
[16] OU YANG WY, LAI CC, TSOU MT, et al. Development of Machine Learning Models for Prediction of Osteoporosis from Clinical Health Examination Data. Int J Environ Res Public Health. 2021;18(14):7635.
[17] PARK HW, JUNG H, BACK KY, et al. Application of Machine Learning to Identify Clinically Meaningful Risk Group for Osteoporosis in Individuals Under the Recommended Age for Dual-Energy X-Ray Absorptiometry. Calcif Tissue Int. 2021;109(6):645-655.
[18] NAM KH, SEO I, KIM DH, et al. Machine Learning Model to Predict Osteoporotic Spine with Hounsfield Units on Lumbar Computed Tomography. J Korean Neurosurg Soc. 2019;62(4):442-449.
[19] 凯依塞尔·阿布都克力木,麦麦提敏·阿卜力米提,李磊,等.女性腰椎退行性病变患者腰椎CT值对骨质疏松症的诊断作用[J].中国组织工程研究, 2024,28(6):945-949.
[20] 王晓文,招文华,颜先伟,等.腰椎椎弓根对应横断面椎体松质骨CT值与BMD值、T值的相关性[J].中国骨质疏松杂志,2022,28(10):1465-1471.
[21] HAN K, YOU ST, LEE HJ, et al. Hounsfield unit measurement method and related factors that most appropriately reflect bone mineral density on cervical spine computed tomography. Skeletal Radiol. 2022;51(10):1987-1993.
[22] SCHREIBER JJ, ANDERSON PA, HSU WK. Use of computed tomography for assessing bone mineral density. Neurosurg Focus. 2014;37(1):E4.
[23] 杨思德.椎体松质骨CT值与双能X线骨密度值的相关性研究[D].桂林:桂林医学院,2023.
[24] XU F, ZOU D, LI W, et al. Hounsfield units of the vertebral body and pedicle as predictors of pedicle screw loosening after degenerative lumbar spine surgery. Neurosurg Focus. 2020;49(2):E10.
[25] KE G, MENG Q, FINLEY T, et al. Lightgbm: A highly efficient gradient boosting decision tree. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA. 2017.
[26] LUNDBERG S, LEE SI. A unified approach to interpreting model predictions. Adv Neural Inf Process Syst. 2017;30:4765-4774.
[27] DEO RC. Machine Learning in Medicine. Circulation. 2015;132(20):1920-1930.
[28] ALI MM, PAUL BK, AHMED K, et al. Heart disease prediction using supervised machine learning algorithms: Performance analysis and comparison. Comput Biol Med. 2021;136:104672.
[29] MARCOS-ZAMBRANO LJ, KARADUZOVIC-HADZIABDIC K, LONCAR TURUKALO T, et al. Applications of Machine Learning in Human Microbiome Studies: A Review on Feature Selection, Biomarker Identification, Disease Prediction and Treatment. Front Microbiol. 2021;12:634511.
[30] KAVITHA C, MANI V, SRIVIDHYA SR, et al. Early-Stage Alzheimer’s Disease Prediction Using Machine Learning Models. Front Public Health. 2022;10:853294.
[31] AZMI J, ARIF M, NAFIS MT, et al. A systematic review on machine learning approaches for cardiovascular disease prediction using medical big data. Med Eng Phys. 2022;105:103825.
[32] CHEN Y, MAO Q, WANG B, et al. Privacy-Preserving Multi-Class Support Vector Machine Model on Medical Diagnosis. IEEE J Biomed Health Inform. 2022;26(7): 3342-3353.
[33] UDDIN S, HAQUE I, LU H, et al. Comparative performance analysis of K-nearest neighbour (KNN) algorithm and its different variants for disease prediction. Sci Rep. 2022;12(1):6256.
[34] GUAN X, DU Y, MA R, et al. Construction of the XGBoost model for early lung cancer prediction based on metabolic indices. BMC Med Inform Decis Mak. 2023;23(1):107.
[35] BUDHOLIYA K, SHRIVASTAVA SK, SHARMA V. An optimized XGBoost based diagnostic system for effective prediction of heart disease. J King Saud Univ Comput Inf Sci. 2022;34(7):4514-4523.
[36] HU J, SZYMCZAK S. A review on longitudinal data analysis with random forest. Brief Bioinform. 2023;24(2):bbad002.
[37] SINGH LK, KHANNA M, SINGH R. Artificial intelligence based medical decision support system for early and accurate breast cancer prediction. Adv Eng Softw. 2023;175:103338.
[38] AZAD C, BHUSHAN B, SHARMA R, et al. Prediction model using SMOTE, genetic algorithm and decision tree (PMSGD) for classification of diabetes mellitus. Multimedia Syst. 2022;28(4):1289.
[39] SHEHAB M, ABUALIGAH L, SHAMBOUR Q, et al. Machine learning in medical applications: A review of state-of-the-art methods. Comput Biol Med. 2022;145: 105458.
[40] DONG Z, WANG Q, KE Y, et al. Prediction of 3-year risk of diabetic kidney disease using machine learning based on electronic medical records. J Transl Med. 2022;20(1):143.
[41] PENG X, LI L, WANG X, et al. A Machine Learning-Based Prediction Model for Acute Kidney Injury in Patients With Congestive Heart Failure. Front Cardiovasc Med. 2022;9:842873.
[42] SUN Y, DING S, ZHANG Z, et al. An improved grid search algorithm to optimize SVR for prediction. Soft Computing. 2021;25:5633-5644.
[43] FLUSS R, FARAGGI D, REISER B. Estimation of the Youden Index and its associated cutoff point. Biom J. 2005;47(4):458-472.
[44] GUGLIELMI G, LANG TF. Quantitative computed tomography. Semin Musculoskelet Radiol. 2002;6(3):219-227.
[45] LEE SJ, BINKLEY N, LUBNER MG, et al. Opportunistic screening for osteoporosis using the sagittal reconstruction from routine abdominal CT for combined assessment of vertebral fractures and density. Osteoporos Int. 2016;27(3):1131-1136.
[46] KARA K, SIVRIOGLU AK, ARIBAL S, et al. The diagnosis of osteoporosis by measuring lumbar vertebrae density with MDCT: a comparative study with quantitative computerized tomography (QCT). Acta Medica Mediterr. 2013;29:775-779.
[47] PU X, WANG D, GU S. Advances in Hounsfield units value for predicting cage subsidence on spinal interbody fusion surgery. Eur Spine J. 2023;32(9):3149-3157.
[48] ZOU D, MUHEREMU A, SUN Z, et al. Computed tomography Hounsfield unit-based prediction of pedicle screw loosening after surgery for degenerative lumbar spine disease. J Neurosurg Spine. 2020;32(5):716-721.
[49] ZOU D, SUN Z, ZHOU S, et al. Hounsfield units value is a better predictor of pedicle screw loosening than the T-score of DXA in patients with lumbar degenerative diseases. Eur Spine J. 2020;29(5):1105-1111.

引言

世界卫生组织将骨质疏松症定义为一种系统性疾病，特点是骨骼质量和密度下降，导致骨骼脆性增加，从而增加了骨折的风险[1-3]。随着中国人口老龄化的加剧，骨质疏松症的患病率迅速上升，已经成为了一个严重的公共健康问题[4-6]。第七次全国人口普查显示，中国65岁及以上的人口超过1.9亿[7]，骨质疏松症的患病率据报道达到32.0%[8]。预计到2050年，骨质疏松性骨折将耗费医疗支出1 584亿元，造成巨大的经济负担[9]。
世界卫生组织推荐双能X射线吸收法(dual‐energy X‐ray absorptiometry，DXA)作为骨质疏松诊断判别的金标准[10]，但其操作相对复杂，对操作人员的专业要求较高，导致在资源有限的基层医疗机构中普及率较低[11]。除此之外，即便患者已经接受了常规CT检查，如果需要进一步的骨质疏松诊断，还需进行双能X射线吸收法检查[12-13]，带来了额外的经济负担与辐射暴露的风险。
为了解决上述局限，人工智能技术的快速发展为骨质疏松诊断提供了新方法。SHIM等[14]验证了机器学习对骨质疏松分类的适用性；BUI等[15]基于患者的年龄、体质量、身高、血液检测结果和地理因素等12个特征，构建了4种预测能力较好的机器学习模型；OU YANG等[16]收集患者身高、体质量、腰围、血液和生化检验等数据，对比了5种机器学习模型，对男女分别建模，预测能力均较好；PARK等[17]基于XGBoost分别对男性和女性预测是否患有骨质疏松，受试者工作特征曲线的曲线下面积分别达到了0.73和0.79，使用SHAP(SHapley Additive exPlanations)评估贡献度由大到小排名前20的重要特征，包括人口统计学、健康行为、营养摄入以及合并症等，其中部分特征较难获取；NAM等[18]以患者年龄、性别和椎骨CT数据作为特征，设计了深度学习模型，预测结果曲线下面积达到了0.9。目前，基于人工智能的诊断方法研究，在特征选择上各有侧重，但均以临床金标准的双能X射线吸收法的测量结果作为训练模型标签，这一参照标准不仅确保了模型输出的准确性和可靠性，还为不同方法之间的结果对比提供了统一基准，从而提升了模型在临床应用中的可信度。
与传统的双能X射线吸收技术相比，人工智能驱动的诊断手段展现出多方面的显著优势。首先，这些方法显著加快了诊断流程，降低了患者暴露于辐射的风险，同时具备更高的成本效益；其次，通过自动化分析与特征提取，人工智能方法有效减少了人为因素导致的主观偏差，显著降低了不同观察者之间以及同一观察者在不同时间点的判断差异，从而提升了诊断过程的一致性和可靠性。这些优势使人工智能在骨质疏松的早期筛查与精准诊断中展现出广阔的应用前景。
双能X射线吸收法主要测量面积骨密度，但受脊柱退变、椎体骨折和血管钙化等因素的影响，导致结果不准确[18]。此外，双能X射线吸收法成本高且技术受限，普及率低[11]。而常规CT仪器在各医院普及率高、方便快捷，被广泛使用，成为不可代替的影像学检查方法[14]。CT检查通过测量X射线衰减系数，能更真实反映组织结构的X射线穿透情况。多项研究表明，常规CT检查数据中的椎体CT值与双能X射线吸收法所测得的T值之间存在着正相关性，但尚未确立明确的标准以确切地衡量二者之间的关系[19-23]。因此，基于常规CT检查数据的人工智能诊断方法有可能成为双能X射线吸收法的替代方案，应用于骨质疏松的早期筛查和诊断。
该研究以患者常规CT检查数据和人口统计学信息，基于机器学习技术构建一个精确可靠具有可解释性的骨质疏松预测模型，通过建立原型系统，展示模型的实际应用方法和应用案例，旨在为骨质疏松症的筛查和早期诊断提供新的辅助手段。该研究提出的方法将辅助医生做出更精准的临床决策，同时降低医疗成本，减少患者接受检查的时间、经济负担以及辐射暴露风险。

中国组织工程研究杂志出版内容重点：组织构建；骨细胞；软骨细胞；细胞培养；成纤维细胞；血管内皮细胞；骨质疏松；组织工程

材料方法

1 对象和方法 Subjects and methods
1.1 设计回顾性病例分析和建模，使用单因素方差分析，Duncan检验比较组间差异，结合集成学习和可解释性框架方法进行模型构建。
1.2 时间及地点 2023年12月至2024年6月收集患者数据，脱敏处理后，在大连大学先进设计与智能计算省部共建教育部重点实验室基于机器学习算法进行模型训练。2024年11月收集补充数据，脱敏处理后，在大连大学先进设计与智能计算省部共建教育部重点实验室完成外部数据验证实验。
1.3 对象选取在大连理工大学附属中心医院接受腰椎三维CT和双能X射线骨密度检查的患者，其中2022年7月至2023年7月期间接受检查的患者作为模型训练和测试集合。2023年10月至2024年4月期间接受检查的患者作为外部验证集。
纳入标准：①绝经后女性、50岁及以上男性；②同时进行腰椎三维CT和双能X射线骨密度检查的患者，为了免除外部因素的干扰以及保证一致性，要求两种检查间隔不超过7 d。
排除标准：①既往有脊柱手术史；②存在先天性脊柱侧弯、脊柱骨折、脊柱肿瘤、强直性脊柱炎；③患有可影响骨代谢的其他疾病。
该研究经大连理工大学附属中心医院伦理委员会批准通过(医院伦理批件号YN2023-069-01)，获免知情同意权。
训练和测试数据集共纳入114例患者，将收集到的所有患者L1-L4椎骨作为单独的样本，根据双能X射线吸收法测定的结果划分，最终得到133个骨质疏松样本和323个非骨质疏松样本。外部验证数据集共纳入93例患者，包括372块可用椎骨，其中276块被标记为非骨质疏松，96块被标记为骨质疏松。
1.4 方法
1.4.1 双能X射线吸收法和CT检查 ①双能X射线吸收法测量方式：通过双能X射线扫描仪(美国Beiler公司Lunar Prodigy双能X射线骨密度测量系统)采用前后投影方式评估L1-L4区域骨密度。扫描由经过专业培训的技术人员操作，并由经验丰富的医生进行评估，以确保结果的质量。受局部结构变化或伪影影响严重的骨骼部位被排除。②CT检查测量方式：患者均采取仰卧位，统一CT检查(德国西门子股份公司MSCT扫描仪，Somatom Force)L1-L4椎体的骨密度。按照设定的低剂量螺旋扫描条件，管电压为100 kV，参考管电流为146 mAs，层间距均为1 mm，显示视野477 mm，重建间隔0.6 mm，矩阵512×512。
1.4.2 诊断标准参考原发性骨质疏松症诊疗指南(2022)[3]，绝经后女性、50岁及以上男性，骨质疏松症的诊断基于双能X射线吸收法测定的椎骨骨密度值。具体来说，对每一个椎骨进行单独的骨密度测定，并将测定结果转换为T值，如果该椎骨的T值≤-2.5，则该椎骨被判定为骨质疏松，否则判定为非骨质疏松。
1.4.3 骨质疏松预测模型该研究提出了一个人机协同的两阶段骨质疏松预测模型，如图1所示，包括2个阶段：第1阶段为人机协同标注CT图像，获取患者CT检查和人口统计学特征数据；第2阶段基于LightGBM模型，并运用SHAP提供预测结果的解释。
1.4.4 7点标注法位置的选取与CT值的测量第一阶段完成了面向人机交互的数据提取。人机协同标注CT图像获取患者CT检查数据是核心任务。鉴于同一椎体内骨密度的不一致性，以及松质骨和皮质骨密度差异的问题，该研究基于PACS软件设计了一种7点CT值测量方法，见图2。该方法通过在每一个椎体的7个不同位置的轴向图像上放置椭圆形感兴趣区域来进行测量。
依据相关文献[18，24]，在每个椎体的不同部位选取了7个特定区域，包括椎体的上终板(图2A)、椎体中部(图2B)和下终板(图2C)以及腰椎椎弓根2个区域[分别测量含皮质骨和松质骨的区域(图2D)和仅含松质骨的区域(图2E)]。测量时，每个感兴趣区域尽可能同时避开外层的皮质骨和椎体后方的筋脉丛，以确保测量结果的可比性。通过这种方法，能够更全面地评估椎体内不同部位的骨密度，从而提高测量的精确性和重复性。此测量方法的设计不仅考虑到了CT图像的分辨率和感兴趣区域的选择，还综合了临床需求，旨在为骨质疏松症和其他骨密度相关疾病的诊断和研究提供更加可靠的数据支持。
1.4.5 特征组合人口统计学与各部位CT值特征名称及含义，如表1所示，其中，L-avg特征为NAM等[18]在论文中使用的特征。
为了选择合适的特征组合，该研究以NAM等[18]实验特征组合作为基线，将特征合理组合，根据专家建议筛选得到6种不同的特征组合方案，如表2所示。然后经过7种不同的机器学习模型进行综合评估不同方案的F1分数以及曲线下面积，选择出最合适的特征组合方案。

1.4.6 预测模型训练与可解释分析第2阶段为可解释性预测模型，预测模型采用了集成学习算法——LightGBM[25]，该算法具有较高的效率、准确性和灵活性。LightGBM基于直方图的决策树学习，显著提升了数据处理速度和内存使用效率，并通过叶子生长策略快速生成准确的预测结果，独特的梯度单边采样(gradient-based one-side sampling，GOSS)和互斥特征捆绑(exclusive feature bundling，EFB)技术在保证高精度的同时，显著降低了计算成本。此外，LightGBM能够直接处理类别特征，避免了冗长的

独热编码过程，并通过自适应调整模型复杂度来防止过拟合。算法丰富的参数设置和内置的交叉验证功能进一步增强了易用性和模型验证的可靠性。LightGBM还支持并行学习和分布式训练，具备高效处理大规模数据集的能力。将数据集按照8∶2的比例随机划分，确定训练集和测试集，从而确保模型在未知数据上的评估具有代表性。实验使用了网格搜索结合交叉验证的方法来调整LightGBM模型的超参数，包括树的最大深度、叶节点的数量和学习率等，确定最优模型参数配置。通过准确率、F1分数、特异度、灵敏度、曲线下面积等指标对模型性能进行综合评估，从而全面衡量模型在骨质疏松预测任务中的表现。采用约登指数(Youden Index)计算最佳分类阈值，基于该阈值区分骨质疏松和非骨质疏松。这一方法使模型在灵敏度和特异度之间达到最佳平衡的阈值，从而优化分类效果。实验为评估模型预测结果与金标准之间的一致性，将该阈值与双能X射线吸收法所测得的T值进行对比，进一步验证该模型在骨质疏松诊断中的可靠性与准确性。

在可解释性分析方面，引入了SHAP框架[26]。该框架通过计算每个特征的Shapley值，量化每个特征在模型预测中的影响程度，使临床医生能够理解模型在做出预测时依据的具体特征，有助于增强模型的可信度与临床应用的可行性。SHAP框架通过模拟每个特征值的“加入”或“移除”对模型输出的影响，计算每个特征的贡献度，量化并可视化这些特征的重要性，以提供对模型预测结果的深入理解，从而增强了模型的透明度和可信度。使用SHAP摘要图展示各个特征对最终预测结果的贡献程度排名，从整体上评估模型的特征重要性。通过SHAP依赖图分析单一特征取值变化对预测结果的影响，以更直观地了解特征与预测结果之间的关系。基于SHAP力图分析单个样本，直观呈现每个特征对个体预测结果的影响，帮助临床医生理解模型对单个样本的具体决策过程。
1.4.7 模型在多种诊断标准下的适用性验证为了进一步评估模型在不同临床环境中的适用性，该研究对患者的L1-L4椎骨进行了独立分析，以检验模型对不同椎体区域的预测能力。将患者的L1、L2、L3和L4椎骨视为独立样本，分别进行模型训练与预测，并计算了相应的性能指标。通过对每块椎骨的独立预测，旨在评估模型在不同椎骨区域的稳定性和准确性，从而验证模型适用于各个椎骨的能力。
此外，由于骨质疏松对患者最终诊断标准尚未统一，该研究对临床中常见的不同诊断方法进行了比较，旨在评估该研究提出的模型在不同诊断方法中的准确性、可靠性和适用性。该研究筛选了临床中常用的3种不同骨质疏松诊断标准进行比较：第1种面向患者每个椎骨进行局部诊断；第2种面向患者的4个椎骨，当存在1个椎骨被诊断为骨质疏松时，将患者所有椎骨均标注为骨质疏松；第3种关注整体，依据双能X射线吸收法对L1-L4椎骨的整体评估结果进行标注。通过多种诊断方法分别标注验证，进一步分析模型在不同诊断策略下的性能表现差异，以验证模型在各种临床诊断条件下的准确性和适用性。
1.4.8 基于外部数据集的模型验证为了进一步验证模型的泛化能力，该研究设计了基于外部数据集的验证方案，通过收集来自不同时间段的患者数据进行外部验证。此次验证的主要目的是确保模型在不同数据条件下的稳定性、可靠性以及适用性，从而提升模型在实际临床应用中的实用性与鲁棒性。外部数据集同样遵循1.4.3节中的入选标准和排除标准，患者接受检查时间为2023年10月至2024年4月，最终收集到93例患者的数据，包括372块可用椎骨，其中276块被标记为非骨质疏松，96块被标记为骨质疏松，进一步扩展了样本的广度，以增强实验结果的可靠性和全面性。
1.5 主要观察指标为了计算指标，该研究引入了混淆矩阵，能够直观展示模型的预测结果与真实标签之间的匹配情况，见表3。

为了有效、全面地评估模型的性能，该研究使用特异度(Specificity)、灵敏度(Sensitivity)、精确率(Precision)、召回率(Recall)、准确率(Accuracy)、F1分数(F1-Score)和曲线下面积来衡量特征选择结果以及模型性能。各个指标的定义及公式见表4。

1.6 统计学分析使用SPSS 25.0软件用于数据分析，采用单因素方差分析和 Duncan 检验比较组间差异，显著性水平为P < 0.05。文章统计学方法已经通过大连大学统计学专家审核。

讨论

该研究基于常规CT检查和人口统计学数据设计了一种骨质疏松预测方法。目前在医学领域，双能X射线吸收法是一种被广泛认可的骨质疏松症诊断的“金标准”，它使用两种不同能量的X射线测量骨骼中矿物质的含量，区分不同组织对X射线的吸收差异，并通过这种差异计算骨密度[44]。然而，双能X射线吸收法主要测量的是面积骨密度，可能会受到脊柱退变、椎体骨折和血管钙化等因素的干扰，可能导致测量结果不准确[21，24]。此外，在实际的临床应用中，由于双能X射线吸收法测定成本较高且存在技术限制，在临床中的普及率和使用率相对较低[11，20，24]。为了确保双能X射线吸收法测量准确，需要确保操作人员遵循规范操作流程，实施严格的操作规程和定期培训，可以显著降低由于操作不当引起的误差。此外，还可以通过采用标准化的测量和分析流程进一步最小化，确保不同时间、不同操作者之间的结果具有可比性。在得出最终的判定结果时，除了双能X射线吸收法测量值，还应综合考虑患者的其他风险因素，这包括但不限于年龄、性别、家族骨折史、个人骨折史、长期使用某些药物(如皮质类固醇)以及生活方式因素(如吸烟和饮酒)。通过这种多因素的综合评估，可以更全面地理解患者的骨健康状态，从而为临床决策提供更为坚实的依据。在CT扫描中，CT值量化了X射线在通过人体组织时的平均衰减系数，与每个像素单元相对应。已有相关研究验证了CT值与骨密度之间的正相关关系[19-24]，因此，CT检查具有替代双能X射线吸收法进行骨质疏松诊断的可能。此外，CT检查普及度高、操作便捷，在各基层医院得到了广泛应用。对于患者而言，利用现有的CT图像进行骨密度评估，能够避免额外的辐射暴露或重复检查。因此，该研究深入探讨了CT检查数据与骨密度的定量关系，并基于此构建预测模型，以辅助骨质疏松的早期诊断与筛查。相关研究表明性别对骨质疏松存在影响[9，11，14-15]，女性患骨质疏松的概率要高于男性。同时，随着年龄的增长，骨骼会发生退化，患骨质疏松的概率也随之增加[5-6，8，11]。因此，该研究模型的特征在CT检查数据的基础上又引入了人口统计学数据，以提升预测模型的准确性，增强对骨质疏松症风险的综合评估能力。
该研究设计了一个两阶段骨质疏松预测框架(图1)，为骨质疏松症的筛查与诊断提供了一种新颖且具有高度可解释性的方法。框架的第一阶段提出了一种细粒度的椎骨CT图像标注法，以精确捕捉椎骨密度相关特征，框架的第二阶段基于集成学习方法设计了一种适用于骨质疏松的可解释预测模型，旨在提高模型的预测性能，并为临床提供透明、可信的诊断依据。
在骨质疏松预测框架的第1阶段，该研究提出了一种基于椎骨CT图像的7点标注法，通过在椎骨的关键部位进行精确标注，确保细粒度的特征提取，增强了对骨密度分布的准确评估。CT检查能够区分骨松质和骨皮质，并且能够定量分析椎体不同层面松质骨中含有的钙质，这种能力为细粒度特征提取与精确标注提供了重要的数据支持。松质骨的CT值下降是骨质疏松的一个早期信号，因为骨矿盐钙的丢失首先发生在松质骨中[23]，从而能够精准地进行骨质疏松的早期筛查和诊断。由于椎骨结构复杂，骨密度在不同解剖部位存在一定的差异，因此，细粒度的特征提取与精确标注对于提升分析结果的准确性至关重要。相关研究调研结果显示，椎体CT值测量的典型部位主要包括椎体上终板、椎体中部和椎体下终板[18，20-24，45-49]。
此外，椎弓根内节段部位的CT值被认为是预测退变腰椎手术后椎弓根螺钉松动的关键因素之一[24]，该部位的CT值能够反映人体骨密度状况，对健康评估具有重要意义。因此，该研究将椎骨左右两侧椎弓根含皮质骨CT值和不含皮质骨CT值均纳入特征选取范围，以确保更加全面和精细的骨密度评估。以上提及的椎体测量部位共同构成了7点CT值测量方法的具体标注部位。实验表明，该研究提出的7点CT值测量方法，即特征组合方案data_6的平均曲线下面积和F1分数比其他模型高出6%-12%，证明了7点CT值测量方法的有效性。
在骨质疏松预测框架的第2阶段中，实验首先对比了多个预测模型的效果，评估了集成学习中的LightGBM、RandomForest、XGBoost以及分类算法的SVM等6种模型在骨质疏松症预测中的性能，旨在评估它们在骨质疏松症预测中的表现和适用性。如表4所示，LightGBM敏感度为90.77%、召回率为90.77%、F1分数为92.91%、精确率为90.22%，曲线下面积为0.938 7，均优于其他对比模型。在准确率方面，LightGBM仅低于最优RandomForest模型0.012，而在特异度方面优于或等同于除RandomForest外其他模型。上述结果表明，LightGBM在骨质疏松症的预测方面表现出显著的有效性和较高的准确性，体现了潜在的临床应用价值。
为了辅助临床医生更清晰地理解模型的决策过程，在骨质疏松预测框架的第二阶段引入了SHAP框架，提供了模型决策的可解释性分析。首先，单变量对模型预测结果的整体影响实验结果(图7)表明椎体中段的CT值与骨质疏松症的相关性最强，椎体其他部位的CT值也对预测结果产生了不同程度的影响。可解释性分析结果进一步印证了7点CT值测量方法在一定程度上提高了骨质疏松症模型预测的准确性和可靠性。除此之外，性别为女性的情况大多对预测结果产生负向影响，使得性别成为对预测结果影响较大的因素，这与以往研究的结果相一致[28]。因此，模型中融合人口统计学数据，提升了模型预测的准确性和鲁棒性。其次，变量对模型预测结果的个体样本影响实验(图9)揭示了各变量对个体样本结果的贡献度，为模型的可解释性提供了有力的支持，通过可视化单样本SHAP图能够直观地观察到个体样本中每个变量对预测结果的贡献大小和方向，使得模型结果在实际应用中更加透明和可信。可解释性分析为诊断和治疗方案的制定提供了更为精准和个性化的判断依据。另外，特征的SHAP依赖图顺序是按照特征在SHAP摘要图中的贡献度排名进行排序，揭示了特征与预测结果影响趋势之间的显著相关性。具体而言，贡献度较高的特征在值(如L-m随着CT值的增大，贡献度变化的幅度也会更大)变化时，对模型预测结果的影响更为显著，如图8表明CT值越小骨质疏松的可能性越大，与预测结果的关系更加直接、显著，易于识别和解释，但预测结果低贡献度特征对于模型来说也具有重要价值，这类特征的加入能够一定程度提高模型预测精度，也能使模型表现更为全面和稳健。
该研究将患者的L1-L4椎体视为4个独立样本，分别进行模型训练与预测，并计算了最终的评价指标，结果显示(表8)L1和L4椎体的预测性能表现优异，而L2椎体的预测性能仍在可接受范围内。整体而言，针对L1、L2、L3和L4椎体的预测结果表现出较高的稳定性和可靠性。因此，无论选择哪个椎体作为样本，模型均能较为准确地识别骨质疏松风险，满足临床筛查和初步诊断的要求，从而为临床筛查提供了灵活性和便利性。此外，结果的一致性也证明了模型的鲁棒性，表明该研究提出的方法在处理不同椎体样本时具有较高的稳定性和适应性。
由于患者的具体情况各异，不同医生可能会采用不同的判定标准进行骨质疏松的最终判定和诊断。基于这一考虑，该研究根据临床常见的判定标准对数据集进行了3种不同的标注，并对这些标注方法进行了实验对比，结果显示(表9)，该研究提出的骨质疏松预测方法具备良好的适应性，无论采用何种标注方法，预测结果均表现出较高的准确性和稳定性。
图5以散点图方式可视化了模型预测样本为非骨质疏松的概率值与T值之间的关系。其中，测试数据以蓝色圆点呈现，横向绿色分割线代表金标准划分阈值(T值=-2.5)，纵向红色分割线表示实验确定的最优阈值(0.707 4)。分割线划分后，蓝色圆点主要集中于第一和第三象限，第一象限中的数据对应非骨质疏松的正确预测，第三象限中的数据对应骨质疏松的正确预测。这一分布表明模型在不同阈值下能够较好地区分骨质疏松与非骨质疏松样本，进一步直观展示了该研究所提出的骨质疏松模型预测结果与金标准判断结果的一致性。
该研究提出的两阶段骨质疏松预测框架仅依赖传统CT检查和人口统计学数据即可进行有效评估。首先，提出了一种椎体7点CT值测量方法，能够精确捕捉椎骨密度相关特征；其次，基于LightGBM算法构建了骨质疏松症预测模型，实现了对骨质疏松症的精准识别；最后，为了增强模型的可解释性，引入SHAP框架，为诊断结论提供了科学依据，使得临床医生和研究人员更好地理解模型的决策过程，从而提升了临床决策的可信度与透明度。在此基础上，基于两阶段骨质疏松预测框架，设计并实现了基于B/S架构的原型系统，进一步展示了两阶段骨质疏松预测框架的临床价值。为验证模型的适用性，该研究使用外部数据集进行实验，结果显示，L1和L4椎骨在外部数据中的表现仍优于L2和L3(表11)，与测试集结果趋势一致，这表明模型在不同椎骨部位的预测性能差异具有稳定性，进一步证实了模型对特定椎骨部位的敏感性和一致性，这种稳定的性能差异为模型在临床应用中针对不同椎骨区域的诊断提供了可靠支持。图10展示了外部数据中模型预测非骨质疏松概率与实际T值之间的关系，结果显示二者呈显著正相关。随着T值的升高，模型预测的非骨质疏松概率逐渐接近1，表明模型能够有效捕捉特征与T值间的复杂关系。该结果进一步验证了模型预测与双能X射线吸收法测量T值之间的一致性，具有可靠性。综上所述，该研究基于CT影像的骨质疏松预测模型在内部和外部数据集上的表现均稳定且可靠，具有良好泛化性。
除此之外，该研究提出的方法具有显著的经济效益和实用性，能够有效减少患者检查次数，从而减少额外辐射暴露的风险。该方法仅需要CT仪器，因此不仅易于在经济欠发达的城乡地区广泛应用，还特别适合在基层医疗机构推广使用，在临床应用具有潜在价值。
综上所述，该研究提出了一种基于常规CT检查的两阶段可解释骨质疏松预测方法，通过人机协同标注和7点CT值测量方法，结合LightGBM模型与SHAP可解释性分析，实现了对骨质疏松的高精度预测和模型决策过程的透明化。实验结果表明，该方法在不同数据集和椎骨部位上均表现出稳定的预测性能，尤其在L1和L4椎骨上的表现尤为突出。外部数据集验证进一步证明了模型的泛化能力和临床适用性。该研究不仅为骨质疏松筛查和初步诊断提供了新的技术手段，还为医学人工智能在临床中的应用提供了可靠支持，具有良好的推广价值。
尽管如此，该研究仍存在一些局限性。首先，由于训练数据、测试数据及外部验证数据均来自单一医疗中心且样本数量较为有限，模型在真实临床实践中的适用性仍需进一步验证，以满足多样化的临床需求；其次，CT仪器在成像技术、参数设置和标定标准等方面可能存在差异，可能导致相同患者的CT值有所不同，从而影响模型的预测准确性。因此，模型在临床推广之前，需要根据不同CT仪器和设定参数进行微调，以保证预测性能的稳定和可靠。未来的研究可通过收集多中心数据，并探索联邦学习等分布式训练方法，构建对设备差异更具鲁棒性的模型，从而降低仪器间差异对预测结果的影响，这将进一步提升模型的泛化能力，推动在更广泛的临床环境中应用，为骨质疏松的早期筛查和诊断提供可靠支持。

中国组织工程研究杂志出版内容重点：组织构建；骨细胞；软骨细胞；细胞培养；成纤维细胞；血管内皮细胞；骨质疏松；组织工程

对比6种适用于医学领域使用的机器学习模型：支持骨质疏松症筛查和初步诊断

Comparison of six machine learning models suitable for use in medicine: support for osteoporosis screening and initial diagnosis

PDF

可视化

摘要/Abstract

引用本文

使用本文

图/表（结果） 10

参考文献

相关文章 15

引言

材料方法

讨论

文章快阅

延伸阅读

编辑推荐

Metrics

本文评价

[1]	陈帅, 金杰, 韩化伟, 田宁晟, 李志伟. 两样本孟德尔随机化分析循环炎症细胞因子与骨密度的因果关联[J]. 中国组织工程研究, 2025, 29(8): 1556-1564.
[2]	蔡尧昊, 郎律, 黎红. 锥形术CT测量分析下颌第一磨牙拟种植区剩余牙槽嵴的骨量[J]. 中国组织工程研究, 2025, 29(8): 1572-1577.
[3]	卓秋燕, 蒋群, 夏思, 卢诗颖, 刘燕娣, 戴媺. 骨髓增生异常综合征模型大鼠骨髓造血：活髓方干预免疫检查点的作用机制[J]. 中国组织工程研究, 2025, 29(36): 7735-7742.
[4]	孙峥, 赵华. 促红细胞生成素及受体信号通路调控牙周膜干细胞成骨分化的机制[J]. 中国组织工程研究, 2025, 29(36): 7762-7768.
[5]	周万林, 何斌, 申雄成, 黄坤, 田仁元, 袁野, 黄文良. STRO-1阳性与阴性骨髓间充质干细胞成骨能力的对比[J]. 中国组织工程研究, 2025, 29(36): 7719-7727.
[6]	吴越, 朱永娜, 葛翔, 刘樊, 何泽禹, 刘茜. 核因子I-C调控人根尖牙乳头干细胞的分化[J]. 中国组织工程研究, 2025, 29(31): 6667-6673.
[7]	邓光慧, 向炜, 苏其帆, 陈小鱼, 王亮为, 万志宏, 吴佳奇, 陈孝均. 骨质疏松性股骨髁骨缺损兔模型制备及其临界值[J]. 中国组织工程研究, 2025, 29(30): 6426-6433.
[8]	崔月娜, 陈晓瑜, 梁美婷, 陈邬锦, 贺怡, 迪力努尔•艾克帕, 杜满茜, 朱语秋, 阿卜杜吾普尔•海比尔, 孙玉萍. 节食与限时进食小鼠代谢指标及肠道菌群分布差异[J]. 中国组织工程研究, 2025, 29(30): 6449-6456.
[9]	刘利国, 丘明旺, 黄艳玲, 范志勇, 吴山, 郭汝松. 基于CONSORT声明和STRICTA清单评价针灸推拿治疗枕大神经痛的随机对照试验报告质量[J]. 中国组织工程研究, 2025, 29(30): 6566-6573.
[10]	吴王祥, 冉栋成, 许嘉木, 胥家福, 陈晶晶, 王春庆. 骨质疏松症相关长链非编码RNA：研究现状及发展趋势[J]. 中国组织工程研究, 2025, 29(29): 6360-6368.
[11]	孙海亮, 庞坚, 史万忠, 石瑛. 怀珍养肝胶囊对碘乙酸钠致膝骨关节炎模型小鼠的关节保护效应[J]. 中国组织工程研究, 2025, 29(26): 5579-5587.
[12]	郭荪林, 洪恩达, 戴新华, 林禧, 彭志毅, 程英雄, 范琳燕. 补肾健脾方对去势模型大鼠骨代谢及骨微结构的影响[J]. 中国组织工程研究, 2025, 29(26): 5588-5594.
[13]	樊佳兵, 付雪飞, 张军梅, 周索頔, 莫朝伦. 3D打印导板引导正畸微种植钉植入的精确性[J]. 中国组织工程研究, 2025, 29(24): 5102-5108.
[14]	吕绍茂, 蓝佐珍, 吴文雪, 池金澄, 段少银. 基于CT影像儿童枢椎正常发育与变异的解剖特征[J]. 中国组织工程研究, 2025, 29(21): 4545-4551.
[15]	吕浩, 张舸, 胡芷苜, 王岩, 楚庆松, 周瑶, 江渟, 王久香. 炎症、代谢物与骨质疏松症[J]. 中国组织工程研究, 2025, 29(17): 3697-3704.