본문 바로가기

유전체24

[GWAS] 데이터 QC하는 방법 (hardy-weinberg, missing genotype, etc) plink를 이용한 본격적인 분석 이전에 데이터를 QC하는 방법에 대해서 설명하고자 합니다. genotype QC에는 7가지로 나눌수가 있습니다. Missingness of SNPs and Individuals Sex discrepancy Minor allele frequency Hardy-weinberg equilibrium Heterozygosity Relatedness Population stratification 이렇게 나누어 질 수가 있습니다. 1. Missingness of SNPs and individuals plink에서 --geno, --mind를 이용하여 QC가 가능합니다. --geno : genotype의 missing 비율에 따라 genotype marker를 제거하는 기능입니다. .. 2020. 12. 11.
[GWAS] 교육과 질병과의 관계 안녕하세요~~ 오늘은 GWAS 연구를 가끔 보다보면 나오는 궁금증 중 하나를 해결하고자 합니다. 그것은 바로! 교육과 질병과의 관계! 입니다. 논문을 보다보면 교육을 받은 정도도 변수로 나오는 경우가 있습니다. 실제 교육을 받은 정도가 질병과 연관성이 있을까?! 라는 생각이 많이 들곤 했는데, 오늘 간단한 논문 리뷰를 통해 알아 보도록 하겠습니다. 오늘 간단하게 소개시켜드릴 논문은 다음과 같습니다. Choi, Andy I., et al. "Association of educational attainment with chronic disease and mortality: the Kidney Early Evaluation Program (KEEP)." American Journal of Kidney Dise.. 2020. 12. 1.
[GWAS] GWAS 하기 위한 필수 요건! GWAS는 분석 방법은 거의 20년이 다 되어가고 있습니다. (2002년 Ozaki 그룹에서 처음 논문이 나옴) 초창기 분석에는 샘플의 개수에 상관없이 많은 연구들이 쏟아져 나오게 되었습니다. 그러다가 p-value에 대한 cutoff (pvalue = 5e-10이하의 값을 갖는 변이만 인정)가 생기고, 샘플 개수를 이용한 statistic power를 계산하는 방법까지 많은 다양한 기준들이 생겨났습니다. 저도 박사과정 중에 GWAS분석을 여러번 해보았고, 주변사람들 분석을 할때 꽤 도와준 적이 있습니다. 분석 실패도 여러번 맛 보았고, 주변사람들 분석을 도와줄 때도 항상 걸렸던 요인이 있습니다. 바로 Statistical Power 입니다. (쉽게 이야기하면 샘플수가 문제입니다.) 어떠한 질병을 분석을.. 2020. 7. 24.
[GWAS] plink에 유용한 기능 (3) (filter-case,controls,males, etc) plink에 그냥 있는 기능 몇 개 소개하겠습니다. (아침이라 간단하게!) plink --bfile pre-filename --filter-cases --make-bed --out case_only plink --bfile pre-filename --filter-controls --make-bed --out control_only plink --bfile pre-filename --filter-males --make-bed --out male_only plink --bfile pre-filename --filter-females --make-bed --out female_only plink --bfile pre-filename --filter-founders --make-bed --out founder_.. 2020. 6. 22.
[GWAS] GWAS Quality Control (QC) GWAS를 진행함에 있어서 가장 중요한 것은 크기를 줄이는 것과 정확한 변이를 분석하는 것입니다. 1 . 대부분의 GWAS는 수백만개의 변이에서부터 수십개정도의 변이를 이용하여 분석함. 2. 분석할 때 population크기가 적당한 크기가 되어야함 (Statistics power를 확인해보시면됩니다.) 3. 그냥 바로 분석하기에는 1종오류, 2종오류가 많음. plink에는 여러 QC 방법들이 있음. 1. --hwe [pvalue] (hardy-Weinberg equilibrium) QC 설명이 늦었던 이유가 이 하디 법칙을 찾아보느라 늦었습니다. (pvalue구하는 것까지 구해보려했으나, plink pvalue같이는 못만들겠네요. 아시는분 저좀 알려주세요~~) 하디 법칙의 pvalue로 variants.. 2020. 6. 19.
[GWAS] GWAS 분석시 참고하기 좋은 사이트들 어떤 분석이든 간에 가장 중요한 것은 표현이다. 표현은 곧 그림! GWAS분석을 하면서 유용하게 사용하였던 그림 그리기 기능을 알려준 사이트들을 소개합니다. Q-Q plot : https://genome.sph.umich.edu/wiki/Code_Sample:_Generating_QQ_Plots_in_R Code Sample: Generating QQ Plots in R - Genome Analysis Wiki Quantile-quantile plots (qq-plots) can be useful for verifying that a set of values come from a certain distribution. For example in a genome-wide association study, .. 2020. 6. 14.