plink를 이용한 본격적인 분석 이전에 데이터를 QC하는 방법에 대해서 설명하고자 합니다.
genotype QC에는 7가지로 나눌수가 있습니다.
-
Missingness of SNPs and Individuals
-
Sex discrepancy
-
Minor allele frequency
-
Hardy-weinberg equilibrium
-
Heterozygosity
-
Relatedness
-
Population stratification
이렇게 나누어 질 수가 있습니다.
1. Missingness of SNPs and individuals
plink에서 --geno, --mind를 이용하여 QC가 가능합니다.
--geno : genotype의 missing 비율에 따라 genotype marker를 제거하는 기능입니다.
--mind : Sample에서 변이 marker의 Missing 비율이 많은 Sample을 제거해주는 기능입니다.
2. Sex discrepancy
Sex정보가 있다면 당연히 샘플이 맞나 틀리나를 확인해 보아야합니다.
실험하는 사람이 잘못 샘플링했을수도 있고, 정보가 잘못기재되어있을수도 있기 때문에 이를 제거해줍니다.
--check-sex : X chromosome에 heterozygosity/homozygosity rate를 이용하여 확인하는 방법입니다.
(저는 잘 쓰지 않았습니다, 주로 다른 그룹데이터와 합칠때는 필수로 해야합니다.)
3. Minor allele frequency (MAF)
--maf : Minor한 allele의 비율이 너무 작을 경우 phenotype에 영향을 줄 가능성이 적고 genotype error일 가능성이 있기 때문에 제거를 해줍니다.
4. Hardy-weinberg equilibrium
--hwe : --hardy를 통해서 pvalue, genotype의 개수를 확인이 가능합니다. hwe의 p-value가 1로 갈수록 HWE 만족한다라는 것입니다. pvalue가 낮은 변이 마커일수록 genotype error라고 생각을 하는것 입니다.
그렇다고 hwe를 0.05 cutoff를 진행하느냐?! 그건 아닙니다. 조금 널널하게 0.05이하로 잡는 경우도 있습니다. case와 control을 따로 적용을 시키라고 하는 경우가 있는데, 이는 후보변이들이 전혀 나오지 않을때 진행을 하는 것이 좋습니다.
5. Heterozygosity
Heterozygosity rates가 높거나 낮은 개체를 제외시켜줍니다.
(이것도 잘 쓰지 않습니다, 주로 다른 그룹데이터와 합칠때는 필수로 해야합니다.)
6. Relatedness
--genome : IBD를 확인할수가 있고, IBD란 혈족이 섞여있을 가능성을 보는 것입니다. 혹은 샘플링 오류로 같은 샘플이 들어갔을 경우도 찾아낼때 이용합니다.
--min : IBD값에 대한 필터입니다.
(이것도 잘 사용하지 않는편이라 추후에 IBD의 개념설명하면서 같이 설명하겠습니다.)
7. Population straficiation
--genome : 이를 이용하여 확인할 수가 있고, (인종구별, 혹은 지역별 구별)
--cluster, --mds-plot k : 이를 이용하여 각 샘플들을 그룹화 시킬수가 있습니다. (cluster)
MDS plot의 경우 array genotyping을 실제 진행해서 QC보고서를 받아보면 해주는 경우가 있습니다.
Reference
- doc.goldenhelix.com/SVS/latest/svsmanual/ftParts/general_statistics.html
- Marees, Andries T., et al. "A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis." International journal of methods in psychiatric research 27.2 (2018): e1608.
- blog.daum.net/kimuks/7531795
- www.cog-genomics.org/plink/
유용하셨다면 주변 아무 광고 클릭 부탁드리겠습니다.
'유전체 > GWAS' 카테고리의 다른 글
[GWAS] 결과 분석하는 방법 (assoc function) (17) | 2021.02.01 |
---|---|
[GWAS] Genotyping microarray 분석 시 주의해야할 concordance rate (1) | 2020.12.30 |
[GWAS] 교육과 질병과의 관계 (0) | 2020.12.01 |
[GWAS] GWAS 하기 위한 필수 요건! (5) | 2020.07.24 |
[GWAS] plink에 유용한 기능 (3) (filter-case,controls,males, etc) (0) | 2020.06.22 |
댓글