본문 바로가기
유전체/GWAS

[GWAS] plink input format (형식확인)

by 인포메틱스 2020. 6. 5.
반응형

plink를 설치를 했으면, 설치폴더에 toy라는 파일들이 보입니다.

 

toy.ped, toy.map 이렇게 두 파일의 경우 기본적인 plink input file format입니다.

 

샘플수가 많을경우 binary파일로 바꿔줘야하는데, 그렇게 바꾼 파일의 경우 뒤에 .bed,.bim,.fam 가 붙습니다.

 

기본적인 format에서 binary파일로 변환을 시킬수가 있는데


 

plink --file toy --make-bed --out toy_step1명령어를 치시면 됩니다.


그러면 그 폴더 내에 toy_step1.bim, .bed, .fam이 생기게 됩니다.

 

우선 기본적인 input format을 확인해봅시다.

 

vi*로 아무 toy파일로 들어가게되면 두 줄이 보인다.

vi = 리눅스에서 터미널을 통해 텍스트를 읽어 올 수 있다. 용량이 많을 경우 느리게 반응함. 그럴때는 less -S  <파일명>을 이용함.

vi와 less의 차이는 vi의경우 텍스트의 모든파일을 읽어오지만, less의 경우 부분만 읽을 수 있음.


 

vi를 통해 들어온 map파일
vi를 통해 들어온 ped파일


map 파일의 경우 4개의 column으로 되어있다.

  •  Chromosome (변이의 Chromosome)
  •  Marker ID (주로 dbSNP을 쓰거나 chr:ref:alt를 추가로함. 여러 plink 데이터를 다룰 때 필수적인 column)
  •  Genetic distance (이때까지 잘 사용안해봄, UCSC에서 확인이 가능함)
  •  Position (변이의 위치, Base-pair coordinate)

ped 파일의 경우 6 column + a

  • Family ID (family analysis가 아닐경우 여기에다 그냥 ID를 넣으면 된다.)
  • ID (family analysis가 아닐경우 여기에다 그냥  ID(Sample이름)를 넣으면 된다.)
  • Paternal ID (아버지 ID,없어도 돌아감)
  • Maternal ID (어머니 ID, 없어도 돌아감)
  • Phenotype ( -9,0 : missing, 1 : unaffected, 2 : affected )
  • a = n개를 분석한 연구일경우 n개의 SNP정보가 추가로 들어감.

binary format 의 경우!

bed 파일의 경우

  • ped 파일에서의 a부분의 데이터들이 binary형식으로 들어가게 됨.
  • 읽지 못함 (읽을생각 안함.)

bim 파일의 경우 6개의 column으로 구성됨.

  • Chromosome 
  • Variant identifier (map에서 Marker ID와 비슷한 역활)
  • Position in morgans or centimorgans (모르면  0)
  • Position (Base-pair coordinate)
  • Allele 1 (usually minor, bed의 자료를 기반으로 minor를 인식)
  • Allele 2 (usually major, bed의 자료를 기반으로 major를 인식)

fam 파일의 경우 6개의 column으로 구성됨 ped와 같음.

  • Family ID
  • Family내에 ID ( Family내에 특정시킬수있는 ID)
  • Paternal ID (없으면 0 처리)
  • Maternal ID (없으면 0 처리)
  • sex code (gender, '1' = male,'2' = female,'0' = unknown, 있으면 넣는것 추천, plink돌릴때, 오류가 날때가 있음. 고치기 가능한)
  • Phenotype value ( '1' = Control, '2' = Case, -9/0/non-numeric = missing data )

input format의 설명이었고, 이것을 손수 만드느냐!! 그건 아니죠... 다음에는 input file만드는 방법을 알려드리겠습니다.

plink 설치 및 설정은 아래 사이트로 가세요~!

https://mopipe.tistory.com/8

 

Plink 설치 및 설정하기.

Plink 설치하기 일단 구버전 말고 신버전( plink 1.90 beta )를 설치를 할겁니다! 준비물을 리눅스! 생물정보학을 하려면 리눅스는 필수라고 생각합니다. (맥포함) 왜냐하면! 윈도우로 뭔가를 돌리기에

mopipe.tistory.com

 

728x90
반응형

댓글