1 资料和方法 Data and methods
1.1 设计 采用双样本孟德尔随机化研究糖尿病与肥厚型心肌病之间的因果关系(图1)。
1.2 时间及地点 实验于2023-02-01/2024-12-02在天津医科大学完成。
1.3 资料
与糖尿病相关的单核苷酸多态性鉴定:从最新的GWAS数据库(https://gwas.mrcieu.ac.uk/datasets/)中获得了162个与糖尿病相关的单核苷酸多态性,这些单核苷酸多态性是从24 659名糖尿病病例和459 939名对照参与者中确定的。为了确定独立的基因组范围显著的单核苷酸多态性,采用了以下标准:①这些单核苷酸多态性与糖尿病在基因组范围上具有显著关联(P < 5×10-6);②排除与其他单核苷酸多态性存在连锁不平衡的单核苷酸多态性(r2 < 0.001,窗口大小=10 000 kb);③为了排除工具变量与糖尿病之间的弱关联,在孟德尔随机化中使用了单核苷酸多态性的F统计,F=(β/SE)²,对于F < 10的单核苷酸多态性,将被排除以避免工具变量的偏差。GWAS数据来自英国医学研究委员会整合流行病学数据库(IEU,University of Bristol),该数据库整合了多项国际大型遗传研究,主要基于欧洲人群样本。数据具有公开性、标准化程度高、适用于遗传因果关系研究等特点,广泛应用于孟德尔随机化分析中。
肥厚型心肌病的数据源:肥厚型心肌病数据可在https://gwas.mrcieu.ac.uk/datasets/ebi-a-GCST90018861/上获得,包括507例肥厚型心肌病病例和489 220名对照参与者。该研究已获得相关机构审查委员会的批准,并且在原始研究中已获得参与者的所有知情同意。
1.4 方法
1.4.1 双样本孟德尔随机化分析 利用R软件的“TwoSampleMR”包(版本0.5.8)进行了双样本孟德尔随机化分析(R版本4.2.2,http://www.r-project.org)。在所有统计测试中,使用Bonferroni校正的分析,显著性水平为双尾P < 0.05。采用逆方差加权法估计糖尿病和肥厚型心肌病之间的因果关系,同时采用加权中位数法和MR-Egger法进行敏感性分析。采用MR-Egger截距评估多向性效应及截距是否在统计上与零有显著差异。通过以上的方法,研究糖尿病与肥厚型心肌病之间是否存在着因果关系。该文统计学方法已经由北京协和医学院生物统计学专家审核。
1.4.2 差异基因生物信息分析
糖尿病与肥厚型心肌病数据集:在此次研究中,糖尿病数据集GSE184050和肥厚型心肌病数据集GSE160997配置文件是从GPL11154生成的 GEO 数据库(http://www.ncbi.nlm.nih.gov/geo/)中下载的。GSE184050包括50个糖尿病和66个正常样本,GSE160997包括18个肥厚型心肌病和5个正常样本,用于识别糖尿病与肥厚型心肌病的差异表达基因。
差异表达基因的筛选:分别对GSE184050和GSE160997数据集进行log2变换。利用lmFit函数进行多元线性回归,通过对标准误差趋近于一个共同值的经验贝叶斯调节,计算调节的t统计量、调节的f统计量和微分表达式的对数比值,最终获得每个基因的差异显著性,绘制火山图。将GSE184050和GSE160997的差异基因取交集,获得差异表达基因。
加权基因共表达网络分析:利用GSE160997的基因表达矩阵,分别计算了每个基因的中位绝对离差,剔除了中位绝对离差最小的前50%的基因。利用R软件包加权基因共表达网络分析(WeightedGene Co-Expression Network Analysis,WGCNA)的goodSamplesGenes方法去除了离群的基因和样本,进一步使用WGCNA构建scale-free co-expression network。对所有成对基因都执行皮尔逊相关矩阵和平均连锁法,使用幂函数A_mn=|C_mn|β构造加权邻接矩阵(C_mn = Gene_m和Gene_n之间的Pearson相关,A_mn= Gene m和Gene n之间的邻接),β是一个软阈值参数,可以强调基因之间的强相关性,减弱弱相关性及负相关性的影响。选择10的幂后,将邻接转换为拓扑重叠矩阵,该矩阵可以测量一个基因的网络连通性,该网络连通性定义为它与所有其他基因的邻接之和,用于网络基因比率,计算相应的相异度(1-拓扑重叠矩阵)。为了将具有相似表达谱的基
因分类为基因模块,根据基于拓扑重叠矩阵的相异性度量进行平均连锁层次聚类,基因树状图的最小大小(基因组)为30,设置敏感度为3。为了进一步分析模块,计算模块特征基因的相异性,为模块树状图选择了一条切割线,并合并了一些模块;此外,还合并了距离小于0.25的模块,值得注意的是grey模块被认为是无法被分配给任何模块的基因集合。
功能富集分析:基因本体分析(Gene Ontology,GO)和京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析是评估基因功能和生物学途径的计算方法。此次研究将韦恩图筛选出的差异基因列表输入KEGG rest API(https://www.kegg.jp/kegg/rest/keggapi.html),获取了最新的KEGG Pathway基因注释,以此作为背景,将基因映射到背景集合中,使用R软件包clusterProfiler(version 3.14.3)进行富集分析,获得基因集富集结果。使用R软件包org.Hs.eg.db(version 3.1.0)中基因的GO注释,以此作为背景。将基因映射到背景集合中,设定最小基因集为5,最大基因集为5 000,P < 0.05、假发现率< 0.25被认为是有统计学意义的衡量标准。另外,Metascape数据库可以提供全面的基因列表注释和分析资源,并可视化导出,使用Metascape(http://metascape.org/gp/index.html)数据库对上述差异基因列表进行功能富集分析并导出。
基因集富集分析:从基因集富集分析(Gene Set Enrichment Analysis,GSEA)(DOI:10.1073/pnas.0506580102,http://software.broadinstitute.org/gsea/index.jsp)网站获得了GSEA软件(version 3.0),根据疾病和正常作为分组,将两组疾病样本分别分成两组,从Molecular Signatures Database(DOI:10.1093/bioinformatics/btr260,http://www.gsea-msigdb.org/gsea/downloads.jsp)下载了c2.cp.kegg.v7.4.symbols.gmt子集合,用以评估相关途径和分子机制,基于基因表达谱和表型分组,设定最小基因集为5,最大基因集为5 000,一千次重抽样,P < 0.05、假发现率< 0.25被认为具有统计学意义。对全基因组进行GO和 KEGG分析。由GSEA制定。
蛋白质-蛋白质相互作用网络的构建与分析:STRING数据库(http://string‑db.org/)旨在收集、评分和整合所有公开可用的蛋白质-蛋白质相互作用信息来源,通过计算预测来补充这些来源。此次研究将差异基因列表输入到STRING数据库中,构建预测核心基因的蛋白质-蛋白质相互作用网络(置信度> 0.4)。Cytoscape软件可以为生物学家提供生物网络分析和二维可视化。此次研究通过 Cytoscape软件对STRING 数据库形成的蛋白质-蛋白质相互作用网络进行可视化和预测核心基因。首先将蛋白质-蛋白质相互作用网络导入到Cytoscape软件中,通过MCODE找到相关性最好的模块,通过5种算法(MCC、DMNC、Degree、EPC、Closeness)分别计算相关性最好的基因并取交集,可视化后导出核心基因列表。
基因表达量热图:使用R包heatmap对蛋白质-蛋白质相互作用网络中寻找到的核心基因在GSE184050和GSE160997中的表达量分别作出热图,可视化核心基因在糖尿病与肥厚型心肌病和正常样本间的表达差异。
CTD分析:CTD数据库(Comparative Toxicogenomics Database)整合大量化学物质、基因、功能表型和疾病之间相互作用数据,为疾病相关环境暴露因素及药物潜在作用机制研究提供极大便利。将核心基因输入到CTD网站中找到与核心基因最相关的疾病,用Excel画出了每个基因的表达差异雷达图。
筛选miRNA:TargetScan (www.targetscan.org)是一个在线数据库,用于预测分析miRNA和靶基因。此次 研究将TargetScan用于筛选调节hub基因的 miRNA,可能通过调控核心基因及其相关通路来影响疾病进程。
1.5 主要观察指标 ①孟德尔随机化分析结果:糖尿病与肥厚型心肌病之间的遗传因果关系是否显著;②差异表达基因数量与表达趋势:通过GEO数据集筛选的差异表达基因数量,以及在疾病与对照样本间的表达变化;③加权基因共表达网络分析(WGCNA)模块与核心基因识别情况:重点关注与疾病表型高度相关的模块及其hub基因;④功能富集分析结果:GO与KEGG通路富集的显著性与生物学意义;⑤HSF1表达情况及其在两类疾病中的差异:包括热图中HSF1的表达模式、与相关通路的富集关联性;⑥CTD数据库与miRNA分析验证信息:核心基因关联疾病及其调控miRNA的预测结果,作为功能机制的补充证据。