본문 바로가기
데이터베이스 소개

[DB소개] GDC, GDC legacy 데이터 베이스 간단 설명

by 인포메틱스 2021. 4. 2.
반응형

 

TCGA는 의료 Bioinformatics를 할때 필수적으로 다뤄야 하는 데이터입니다.

 

 예전에는 TCGA site만 따로 있었는데 요즘은 GDC로 변경해서 여러 데이터가 합쳐져 다루고 있습니다. (Game Developers Conference아님, Genomic Data Commons Data Portal입니다.)

 

미국에서 진행한 여러 빅 스터디들을 모아둔 곳이 GDC입니다.

 

GDC data portal

 

raw 데이터의 경우 병원장 승인을 받고 (연구계획서 제출도 해야됨) 허가가 나오면 들어가서 만질 수가 있고 일반적인 사람들이 만질 수 있는 데이터는 데이터 처리된 결과물을 이용할 수가 있습니다.

 

GDC portal이외에도 GDC legacy도 있습니다. 여기는 옛날 데이터를 저장해놓은 데이터 베이스고 여기서 나중에 포스팅할 CCLE데이터 베이스의 raw데이터(bam파일)를 얻을 수가 있습니다. (승인없이 가능!, 일반인들도 다운가능)

 

GDC Legacy

 

그리고 TCGA level 3만 모아둔 firehose, firebrowse 데이터 베이스가 있습니다.

 

firehose하고 firebrowse 둘다 Broad institute에서 만들었는데, 둘 중에 Firebrowse를 사용을 더 추천합니다. (더 최근에 만들어진 데이터 베이스입니다. 2019년)

 

어떤 데이터든 최근것을 사용해야하는 이유는 오래된 결과는 오류가 있을 확률이 있을 뿐더러 나중에 같은 이유로 리뷰어에게 까이고 논문 리젝당합니다. TCGA는 샘플의 수가 변경될 수도 있기 때문에 최근 데이터를 쓰는것이 좋습니다.

 

 

firebrowse
firehose

 

여기 firebrowse에서는 level 3 데이터 (분석을 완료한 데이터)를 사용할 수가 있고, 인스턴스 식품같은 존재입니다. (여러나라의 인스턴스식품은 각 나라의 석학들이 만든 최고식품이라고 이야기하듯이 firebrowse 또한 세계적인 석학들이 모여있는 Broad에서 만든 믿을수 있는 인스턴트 데이터베이스입니다.)

 

firebrowse에는 DNA, RNA, RPPA, CNA, miRNA etc 여러가지 데이터를 볼 수가 있습니다.

 

여기까지 GDC, GDC legacy, firehose, firebrowse를 소개한 포스팅입니다.

앞으로도 이렇게 간단하게 데이터베이스도 올리려고 합니다.

 

데이터베이스들의 자세한 설명보다 이러한 데이터베이스가 있다 정도로만 포스팅 하도록 하겠습니다.

(데이터베이스 소개할 것이 정말 많기 때문에 아는데까지 올리면 세세하게 소개하도록 하겠습니다.)

 

이러한 데이터베이스들을 통해서 연습을 적극 추천드립니다.

728x90
반응형

'데이터베이스 소개' 카테고리의 다른 글

[DB소개] Cancer Cell Line Encyclopedia (CCLE)  (4) 2021.04.05

댓글