2021年3月,北京市神经外科研究所、附属北京天坛医院江涛教授团队在国际生物信息学领域权威学术期刊《Genomics, Proteomics & Bioinformatics (GPB)》杂志在线发表题为“Chinese Glioma Genome Atlas (CGGA): A Comprehensive Resource with Functional Genomic Data from Chinese Gliomas”的数据库论文。北京市神经外科研究所赵征助理研究员、张克难和王强威博士研究生为共同第一作者,北京市神经外科研究所、附属北京天坛医院江涛教授与保肇实副主任医师为通讯作者。
江涛教授团队历经十五年的脑胶质瘤临床样本积累、患者长期随访以及多维组学数据检测,构建了首个中国人群的脑胶质瘤功能基因组学数据库——中国脑胶质瘤基因图谱计划(CGGA)数据库。CGGA数据库向全世界研究者免费公开了约2000例中国脑胶质瘤样本的功能基因组学数据,开发了多个脑胶质瘤的可视化在线分析工具,成为亚洲乃至全世界最大规模的脑胶质瘤医学信息工程。该工作为脑胶质瘤发生发展过程中的重要分子机制的深入探究,为脑胶质瘤的分子分型和药物靶点研发提供指导,并为脑胶质瘤精准医学全链条的发展奠定基础,推动中国脑胶质瘤临床治疗和科学研究的进步。自2019年6月,数据库上线后全球总访问量逾6.7万次,其中包括来自美英德意日等115个国家地区的诸多学者,数据库获多名国际知名教授撰文肯定。截至目前,已有发表在Cell、Nature Cell Biology、Annals of Oncology等国际知名杂志的576篇论文引用数据库数据。
脑胶质瘤是成人最常见的颅内恶性肿瘤,年发病率约5-8/10万人。患者预后不良,常于手术后早期复发,给患者家庭及社会带来了巨大的经济和心理负担。近年来,随着脑胶质瘤分子生物学研究不断深入,越来越多的生物学标记物被发现并用于临床诊治。脑胶质瘤功能基因组学数据的全面收集和共享有助于加速科学研究和临床转化,对临床治疗对策和国家肿瘤防控政策的制定具有重要指导意义。
CGGA数据库是第一个完备的中国脑胶质瘤患者队列的外显子组、转录组、表观遗传组等多组学息库。该信息库的建设包括标准样本采集、测序、分析流程、数据存储与共享等。CGGA数据库提供了完备的脑胶质瘤临床信息、组织病理和分子病理等重要信息资源,其中最大随访时间逾15年。开发了数个针对特定组学数据的可视化在线分析工具。自上线以来,CGGA不断更新完善,丰富数据内容、更新随访信息、提升可视化效果。
在CGGA数据库网站中,包含CGGA、TCGA和Rembrandt队列的脑胶质样本组学数据和临床资料,所有数据基于MySQL 14.14进行组织存储。数据库主要在Java Servlet框架下编写开发,并部署在Tomcat 6.0.44 web服务器上,其运行环境为CentOS 5.5 Linux。数据库的在线可视化分析工具主要通过Perl和R脚本实现。CGGA网站能够在Chrome及Safari等主流浏览器中稳定运行。数据库开发构架设计如图1所示。
图1 CGGA数据库开发构架示意图
CGGA数据库能够在线可视化分析全外显子组、转录组学及小RNA、DNA甲基化芯片平台等数据资源(图2A)。在全外显子组可视化分析中,用户可针对其感兴趣的基因或者基因集合可视化分析脑胶质瘤中的突变谱,以此来更好的探究脑胶质瘤的遗传图谱(图2B,C)。此外,用户还可以探索特定基因的遗传改变对脑胶质瘤患者预后的影响(图2D)。在该结果中,还提供了可视化分析工具所使用的数据和运行脚本,以便用户可以更好的复现其分析结果。
图2 CGGA数据库的主要内容及外显子数据分析工具
此外,CGGA数据库还提供了在线的全转录组、小RNA及DNA甲基化数据的可视化分析工具(图3A)。用户可通过输入感兴趣的基因来查询在不同脑胶质瘤亚型中的分布情况(图3B)。其次,用户可以探索感兴趣的基因对在特定脑胶质瘤亚型中的共表达情况(图3C)。此外,用户可以针对自己感兴趣的基因探究在不同脑胶质瘤亚型中的的预后价值(图3D)。相应的组学数据、临床数据以及R脚本呈现在相应结果部分,以便用户可以很好的复现可视化分析的结果。
图3 CGGA转录组数据分析示例
CGGA数据库包含了来自中国人群的2000余例脑胶质瘤样本的多维功能组学数据,其包括全外显子组测序、转录组测序和表观遗传组学数据等。CGGA数据库当前已实现多维功能基因组学数据共享,通过丰富多样的数据分析功能和用户友好的可视化分析工具,为全球众多国家和地区科研人员提供重要的脑胶质瘤数据资源服务。CGGA数据库建设仍在不断完善,不久将来我们将丰富诸如单细胞测序数据、影像组学数据等脑胶质瘤重要的数据资源。依托北京市神经外科研究所、首都医科大学附属北京天坛医院以及中国脑胶质瘤协作组(CGCG),我们将继续收集脑胶质瘤组织样本,开展测序,补充更多的中国人群的功能组学数据。我们期望CGGA数据库能够为中国人群脑胶质瘤的基础和临床科学研究助力,推动中国脑胶质瘤研究向前不断发展。
(研究所 赵征 张克难)
作者:赵征 张克难