基于遗传算法与支持向量机的基因微阵列分析

doi:10.3969/j.issn.1673-8225.2010.17.015

中国组织工程研究 ›› 2010, Vol. 14 ›› Issue (17): 3099-3133.doi: 10.3969/j.issn.1673-8225.2010.17.015

• 数字化骨科 digital orthopedics • 上一篇下一篇

基于遗传算法与支持向量机的基因微阵列分析

汪伟，刘红

首都医科大学，北京市 100069

出版日期:2010-04-23 发布日期:2010-04-23
通讯作者: 刘红，首都医科大学，北京市 100069
作者简介:汪伟★，男，1975年生，北京市人，汉族，首都医科大学在读硕士，高级工程师，主要从事生物医学信息处理技术研究。 wwei_mail@163.com
基金资助:
北京市教育委员会科技发展计划面上项目(KM200910025006)。

Genetic algorithm and support vector machine-based gene microarray analysis

Wang Wei, Liu Hong

Capital Medical University, Beijing 100069, China

Online:2010-04-23 Published:2010-04-23
Contact: Liu Hong, Capital Medical University, Beijing 100069, China
About author:Wang Wei★, Studying for master’s degree, Senior engineer, Capital Medical University, Beijing 100069, China wwei_mail@163.com
Supported by:
the Science and Technology Development General Program of Beijing Education Commission, No. KM200910025006*

摘要/Abstract

摘要：

背景：微阵列数据的特点是样本含量小，而变量数(基因)多达上万个。此时，传统的统计方法往往因为高维而失效了。遗传算法和支持向量机是近年来发展迅速的机器学习算法，具有很好的分类效果与降维优势。
目的：提出将遗传算法与支持向量机结合起来对样本进行分类，并与直接采用支持向量机、筛选差异表达基因后采用支持向量机的结果进行比较。
方法：采用Bioconductor提供的数据集golub,它是白血病微阵列芯片实验所得的基因表达数据集，对全部基因采用支持向量机进行分类。采用SAM软件对芯片数据的显著性分析确定不同的差异表达基因并估计错误发现率FDR，以筛选出的76个差异表达基因作为特征基因子集，再采用支持向量机进行分类。将筛选出的76个差异表达基因作为初始的特征基因集合，采用遗传算法－支持向量机再次进行特征基因选择，提高分类准确度，并与全部基因直接采用支持向量机、筛选差异表达基因后采用支持向量机的结果进行比较。同时也对特征基因在代谢通路上的分布和功能作了一定的研究。
结果与结论：通过遗传算法降维可以提高支持向量机的分类准确率，特别是剔除了数据中的大量无关基因和噪声，使得经过特征选择后分类准确率提高。结果显示遗传算法与支持向量机结合方法对分类更加有效。此外，通路分析结果显示特征基因的主要功能体现在信号传导和氨基酸代谢上。

关键词: 遗传算法, 支持向量机, 微阵列, 通路, 数字化医学

Abstract:

BACKGROUND: Gene microarray data has small sample size and large numbers of variates. Traditional statistical method is not effective. Genetic algorithm (GA) and support vector machine (SVM) are machine learning algorithms developed rapidly in recent years, which can decrease the dimension of features.
OBJECTIVE: To combine GA and SVM to classify samples and compare with other two processes in which all genes and difference expression genes are taken as classifiers, respectively.
METHODS: We applied golub data set provided by Bioconductor, which included gene expression data of leukaemia samples and normal samples. All genes were used to classify samples with SVM. SAM software was used to extract difference expression genes and estimate False Discovery Rate. Finally, 76 difference expression genes were used as feature gene set to classify samples with SVM and GA-SVM respectively. Three classification effects were compared. Additionally, the distribution and function about feature genes in KEGG pathways were also discussed.
RESULTS AND CONCLUSION: The accuracy of classification of SVM was improved by decreasing dimension with genetic algorithm. In particular, this process eliminated a great deal of redundant genes and noises, which improves the classification performance. Results show that GA-SVM algorithm is effective in classifying samples. In addition, the pathway analysis shows that signal transmission and amino acid metabolism are two major functions of feature genes.

中图分类号:

R318

汪伟，刘红. 基于遗传算法与支持向量机的基因微阵列分析[J]. 中国组织工程研究, 2010, 14(17): 3099-3133.

Wang Wei, Liu Hong. Genetic algorithm and support vector machine-based gene microarray analysis[J]. Chinese Journal of Tissue Engineering Research, 2010, 14(17): 3099-3133.

[1]	李啸群, 徐凯航, 纪方. 补骨脂异黄酮抑制破骨细胞分化缓解小鼠去卵巢骨质疏松[J]. 中国组织工程研究, 2020, 24(在线): 4-.
[2]	许国峰, 李学斌, 唐一钒, 赵寅, 周盛源, 陈雄生, 贾连顺. 人黄韧带细胞骨化发生过程中的自噬[J]. 中国组织工程研究, 2020, 24(8): 1174-1181.
[3]	陈江, 肖辉灯, 孙旗, 张帆, 祝永刚, 刘志超, 郭菲宇, 柳根哲. 人椎间盘髓核细胞增殖活性与益肾活血通络方的干预调控[J]. 中国组织工程研究, 2020, 24(8): 1200-1206.
[4]	黄永明, 黄启明, 刘焱杰, 王竣, 曹振武, 田振江, 陈博鉴, 麦秀钧, 冯恩辉. TDP43慢病毒载体转染人脐带间充质干细胞与软骨细胞共培养后的增殖与凋亡[J]. 中国组织工程研究, 2020, 24(7): 1016-1022.
[5]	李晋玉, 俞兴, 姜俊杰, 徐林, 赵学千, 孙旗, 郑晨颖, 白春晓, 刘楚吟, 贾育松. 骨碎补总黄酮联合纳米骨材料促进MC3T3-E1细胞的增殖分化 [J]. 中国组织工程研究, 2020, 24(7): 1030-1036.
[6]	黄成, 刘元兵, 戴永平, 王亮亮, 崔益华, 杨建东. 过表达胶质细胞神经营养因子基因转染骨髓间充质干细胞移植治疗脊髓损伤[J]. 中国组织工程研究, 2020, 24(7): 1037-1045.
[7]	韩波, 杨喆, 栗静, 张明昌. Wnt信号通路调控角膜缘干细胞治疗角膜缘干细胞缺乏症 [J]. 中国组织工程研究, 2020, 24(7): 1057-1062.
[8]	李佳, 汤颖, 朱琦, 张燕萍, 周培刚, 顾永春. 根尖牙乳头干细胞治疗葡聚糖硫酸钠诱导的实验性肠炎 [J]. 中国组织工程研究, 2020, 24(7): 1069-1075.
[9]	王国梁, 李彦林, 向耀宇, 贾笛, 李灿章, 何璐. 基质细胞衍生因子1诱导骨关节炎软骨细胞的miRNA表达谱分析[J]. 中国组织工程研究, 2020, 24(31): 4948-4953.
[10]	从凯, 李善龙, 王飞, 程辉, 李百通, 尚剑. 骨形态发生蛋白2，7治疗骨不连的效果评价[J]. 中国组织工程研究, 2020, 24(26): 4243-4250.
[11]	尹逊路, 朱立国, 冯敏山, 于杰, 展嘉文, 梁龙, 韩涛. 持续负载压力对髓核细胞凋亡及Wnt/β-catenin信号通路的影响 [J]. 中国组织工程研究, 2020, 24(26): 4125-4128.
[12]	陈江龙, 史新宇, 程军, 叶益超, 张震文, 李晓红, 孙洪涛. 人脐带间充质干细胞对大鼠创伤性脑损伤后血脑屏障的保护[J]. 中国组织工程研究, 2020, 24(25): 3947-3952.
[13]	周文明, 林一峰, 张震, 迟利业. 补肾壮督方含药血清对髓核细胞线粒体凋亡通路的影响[J]. 中国组织工程研究, 2020, 24(23): 3643-3648.
[14]	史东梅, 董明, 陆颖, 牛卫东. PI3K/Akt信号通路与骨破坏：问题与机制[J]. 中国组织工程研究, 2020, 24(23): 3716-3722.
[15]	梁晨亮, 赵振群, 刘万林. OPG/RANKL/RANK信号通路在骨巨细胞瘤发病机制中的作用[J]. 中国组织工程研究, 2020, 24(23): 3723-3729.

基于遗传算法与支持向量机的基因微阵列分析

Genetic algorithm and support vector machine-based gene microarray analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

引言

材料方法

讨论

文章快阅

延伸阅读

编辑推荐

Metrics

本文评价