公开的临床数据库有哪些
一、综合性与肿瘤基因组数据库
这类数据库规模大,涵盖多组学数据和临床信息。
TCGA (The Cancer Genome Atlas)
简介:美国国家癌症研究所的项目,包含33种癌症、超过2万个样本的基因组、转录组、表观基因组数据及对应的临床信息。
链接: https://www.cancer.gov/ccg/research/genome-sequencing/tcga (可通过GDC、UCSC Xena等工具访问数据)
ICGC (International Cancer Genome Consortium)
简介:全球合作项目,旨在研究50种不同癌症的基因组突变,数据来自全球多个研究中心。
链接: https://dcc.icgc.org/
cBioPortal
简介:可视化分析平台,集成了TCGA、ICGC等上百个癌症研究数据集,提供交互式探索和综合分析工具。
链接: https://www.cbioportal.org/
GEO (Gene Expression Omnibus)
简介:NCBI旗下的基因表达数据库,储存了大量高通量基因表达、甲基化、芯片数据,包含许多疾病的临床关联数据。
链接: https://www.ncbi.nlm.nih.gov/geo/
ArrayExpress
简介:EBI维护的功能类似GEO的数据库。
链接: https://www.ebi.ac.uk/arrayexpress/
二、影像数据库
主要包含医学影像及标注信息。
The Cancer Imaging Archive (TCIA)
简介:提供大量癌症患者的医学影像(CT, MRI, PET等),常与TCGA等临床基因组数据配对。
链接: https://www.cancerimagingarchive.net/
Medical Segmentation Decathlon
简介:包含10个不同解剖部位和影像模态的标注数据集,用于图像分割算法训练。
链接: http://medicaldecathlon.com/
OASIS (Open Access Series of Imaging Studies)
简介:专注于阿尔茨海默病等神经退行性疾病的脑部MRI数据库。
链接: https://www.oasis-brains.org/
三、公共卫生与电子病历相关数据库
这类数据通常用于流行病学、真实世界研究和预后模型构建。
MIMIC (Medical Information Mart for Intensive Care)
简介:麻省理工学院发布的危重监护医学数据库,包含数万ICU患者的生命体征、用药、实验室检查、影像报告等脱敏数据。
链接: https://mimic.mit.edu/ (需完成数据使用培训)
SEER (Surveillance, Epidemiology, and End Results)
简介:美国国家癌症研究所的癌症统计数据库,覆盖约30%的美国人口,包含发病率、死亡率、治疗方案和生存数据。
链接: https://seer.cancer.gov/ (需申请)
UK Biobank
简介:英国的大型生物样本库,包含50万名参与者的遗传、生化、生活方式数据和纵向健康记录。数据申请门槛和费用较高。
链接: https://www.ukbiobank.ac.uk/
NHANES (National Health and Nutrition Examination Survey)
简介:美国国家健康与营养检查调查,包含人口统计学、体检、实验室检查和问卷调查数据,代表美国人口健康现状。
链接: https://www.cdc.gov/nchs/nhanes/
四、专科疾病数据库
ADNI (Alzheimer‘s Disease Neuroimaging Initiative)
简介:阿尔茨海默病神经影像学数据库,包含MRI、PET、遗传学和临床数据。
链接: https://adni.loni.usc.edu/
TARGET (Therapeutically Applicable Research to Generate Effective Treatments)
简介:专注于儿童癌症的基因组学项目。
链接: https://ocg.cancer.gov/programs/target
五、重要数据平台与检索门户
dbGaP (Database of Genotypes and Phenotypes)
简介:NCBI设立的存储基因型-表型相互作用的数据库,包含许多全基因组关联研究(GWAS)数据。访问受严格控制,需申请。
链接: https://www.ncbi.nlm.nih.gov/gap/
EGA (European Genome-phenome Archive)
简介:欧洲版dbGaP,同样存储受控访问的人类遗传数据。
链接: https://ega-archive.org/
使用注意事项
数据访问权限:分为开放获取(如TCGA、GEO)和受控访问(如UK Biobank、dbGaP)。后者需要提交详细的研究计划,通过伦理审查并签署数据使用协议。
伦理与合规:使用任何临床数据都必须严格遵守数据库的用户协议、伦理规范和隐私保护法律(如GDPR、HIPAA)。严禁尝试对脱敏数据进行再识别。
数据标准化:不同数据库的格式、编码标准(如ICD、LOINC)不一,使用时需进行大量的数据清洗和标准化工作。
临床背景知识:建议与临床医生合作,确保对数据中变量、诊疗过程的理解准确无误。
建议根据具体研究课题(如癌症类型、影像分析、流行病学建模)选择最合适的数据库,并首先从cBioPortal、GEO、TCIA等友好界面开始探索。
