GWAS를 진행함에 있어서 가장 중요한 것은 크기를 줄이는 것과 정확한 변이를 분석하는 것입니다.
1 . 대부분의 GWAS는 수백만개의 변이에서부터 수십개정도의 변이를 이용하여 분석함.
2. 분석할 때 population크기가 적당한 크기가 되어야함 (Statistics power를 확인해보시면됩니다.)
3. 그냥 바로 분석하기에는 1종오류, 2종오류가 많음.
plink에는 여러 QC 방법들이 있음.
1. --hwe [pvalue] (hardy-Weinberg equilibrium)
QC 설명이 늦었던 이유가 이 하디 법칙을 찾아보느라 늦었습니다. (pvalue구하는 것까지 구해보려했으나, plink pvalue같이는 못만들겠네요. 아시는분 저좀 알려주세요~~)
하디 법칙의 pvalue로 variants cutoff 해주는 것인데, (p value 낮은 변이를 자른다)
영가설,귀무가설 : 특정 variants가 hardy-weinberg equilibrium을 이룰 것이다.
대립가설 : 특정 variants가 hardy-weinberg equilibrium을 이루지 않을 것이다.
pvalue가 1로 가면 갈수록 variants가 hardy equilibrium을 이루는 것
pvalue가 0으로 갈수록 variants가 hardy equilibrium을 이루지 않을 것
여기서 p value가 너무 낮게 되면, 그 변이들을 Genotyping error일수 있다라고 판단을 하는 것이다.
cutoff value의 경우 0.05로 잡기 보다 조금 더 널널하게 주는데(더 낮게), 이는 risk변이를 생각해서 조금 널널하게 주는 것이다.
흔한 질병일수록 pvalue를 높게 잡아도 감지가 된다. 희귀질환 분석시에는 적절하게 낮게 pvalue를 줘야한다.
일반적인 분석(몇 논문에서)에서 0.00001로 주고 후보변이가 안 나올 경우 더 낮게 주면 된다.
(그렇다고 너무 낮게 주면 False positive(가짜 콜링변이가 결과에 등장)가 결과로 나옴, 너무 높게 주면 False negative(진짜 원인 변이가 제거가됨)가 발생.)
plink --bfile [filename] --hwe 0.00001 --make-bed --out hardy_filter
*hardy-weinberg equilibrium의 경우 나중에 기회가 되면 설명하도록하겠습니다.
2. --geno [value]/--mind [value]
--geno (per variant) / --mind (per Sample)
missing value가 있는 특정이상으로 갖는 변이(geno), 샘플(mind)들을 제거합니다.
--geno : variants의 missing value가 특정이상으로 생기게 되면 분석의 신뢰도가 낮아지기 때문에 제거를 합니다.
--mind : samples의 genotyping missing value가 많은 샘플은 분석하는데 신뢰를 할수없기 때문에 제거를 합니다.
plink --bfile [filename] --mind 0.1 --geno 0.05 --make-bed --out QC_step1
--geno의 경우 0.05, --mind의 경우 0.1정도로 넣고 분석을 돌립니다. (저의 경우, 분석할때 논문을 많이 찾아보고 필터를 해야합니다.)
3. --maf [value]
minor allele frequency (maf) 특정위치에서 나타나는 두번째로 많이 나오는 변이 (홍진호 2등중 2등, minor allele) 첫번째로 많이 나오는 변이는 major allele 라고 한다.
너무 작은 maf의 경우는 genotype error로 생각해서 제거를 합니다. (default : 0.01)
분석할때 default를 이용해서 분석합니다.
plink --bfile [filename] --maf 0.01 --out maf_cut --make-bed
4. --prune
missing phenotype인 샘플들을 제거시킵니다.! 그냥 명령어만 넣으면 알아서 결과에 제거가 됩니다.
plink --bfile [filename] --prune --make-bed --out No_pheno
위와같이 그냥 추가 시키면 됩니다.
'유전체 > GWAS' 카테고리의 다른 글
[GWAS] GWAS 하기 위한 필수 요건! (5) | 2020.07.24 |
---|---|
[GWAS] plink에 유용한 기능 (3) (filter-case,controls,males, etc) (0) | 2020.06.22 |
[GWAS] GWAS 분석시 참고하기 좋은 사이트들 (0) | 2020.06.14 |
[GWAS] Plink 유용한 기능 (2) (freq, hardy) (3) | 2020.06.10 |
[GWAS] plink 유용한 기능 (1) (exclude, extract) (1) | 2020.06.09 |
댓글