본문 바로가기

gwas19

[GWAS] 두 vcf 파일을 합칠 때 ref가 다를 경우 어떻게 해야할까? 최근 들어온 질문 중에 vcf를 합치다가 보니 두 파일에 같은 위치에서 reference snp이 반대되는 경우는 어떻게 해야하나요? 라는 질문을 받았습니다. 우리가 생각하는 reference는 hg19, hg38에 기준으로 생각 할 수 있지만, vcf를 만드는 여러 과정중에 reference가 변경될 수가 있습니다. 그래서 결국 Reference가 다른 vcf를 어떻게 합칠것이냐?! GWAS를 분석할때 주로 많이 사용되는 툴인 Plink에서는 두가지의 plink format를 합치는 기능도 있습니다. 그래서 한번 합쳐보도록 하죠. 예전에 연습용으로 사용했던 이명 관련 데이터를 이용해서 연습 파일을 만들어 보도록 하겠습니다. 다음과 같이 ref가 다른 두 개의 파일을 만들었습니다. 위가 part1, 아래.. 2021. 6. 24.
[GWAS] Genetic rick score (GRS) 구하기 오늘은 Genetic risk score (GRS)에 대한 이야기와 실습을 해보고자 합니다. GWAS 기본 분석은 정말 간단하게 이루어지는 연구입니다. 단지 Case, Control간에 chi-test를 이용하여 변이들의 p-value를 확인하면 되는 부분이죠. 이렇게 반복 결과만 이용해서 논문을 내다 보니 출간 논문에는 특별한 것이 없어지고, 샘플수에 더 초점이 맞춰졌던 것 같습니다. (이것 이외에도 샘플수에 초점이 맞춰진 이유는 다양합니다. 통계적인 파워 때문일 수도 있고, 특정 소수에게만 적용되는 변이일수도 있기 때문에 샘플수는 GWAS분석에 있어서 중요합니다.) 그러다 사람들이 변이의 p-value를 확인하는 것 이외에 생각을 한 것이 실제 찾은 변이들의 효과를 평가하는 것이었습니다. "이러한 S.. 2021. 4. 2.
[R,GWAS] 카이검정 (chisq.test), 피셔검정(fisher.test) 쉽게 하기 GWAS분석 툴인 Plink를 사용하면 흔하게 볼 수 있는 Header는 CHISQ입니다. 카이 검정이라고 하는 이 CHISQ는 R에서도 쉽게 확인할 수가 있습니다. 카이 검정이나 피셔 검정의 목적은 내가 분석할 데이터들이 실측값 예측값을 이용하여 실측값들이 모집단(예측값)에 맞다.에 대한 오류가 있을 확률을 구하는 것입니다. 영가설 : 예측값들이 실측값과 비슷하다. 큰차이가 나지 않을 것이다. 대립가설 : 예측값들이 실측값과 다르다. 큰차이가 날 것이다. 두 집단이 동일한지 확인 (GWAS에서 plink에서 이용) 영가설 : 두 집단이 비슷할 것이다. 대립가설 : 두 집단이 다를 것이다. 두 개 이상의 변수가 독립성을 띄는지 아닌지 확인 영가설 : 두 집단이 독립적일 것이다. 대립가설 : 두 집단이 독.. 2021. 3. 9.
[GWAS] Imputation 시에 중복된 변이의 경우에는? 한국인 칩을 분석을 하면서 가끔 무언가를 샘플 그룹을 나누고 합치고 하다보면 중복되는 변이가 있는 것을 발견합니다. 이럴때는 plink에서는 어떻게 처리를 할까요? 예전 분석을 할때, 위와 같은 경우가 발생하여 --freqx라는 기능으로 각 변이의 frequence를 확인해보니 무조건 변이가 있는 경우는 Case 없는 경우는 Control로 잡습니다. (두 변이다 frequency의 총합은 같구요) 그리고 조금 더 보니 Imputation을 진행하다보면 같은 위치에서도 같은 샘플에서 다른 변이를 갖고 있는 경우도 있더군요. (이럴때도 따로 위처럼 계산되는 것 같습니다.) 아마 imputation이 다른 자료를 이용하여 예측을 하는 프로그램이다 보니 같은 샘플(Same Sample)에 중복위치(Same p.. 2021. 3. 3.
[GWAS] 결과 분석하는 방법 (assoc function) 실습용 데이터는 Gilles, Annick, et al. "A pilot genome-wide association study identifies potential metabolic pathways involved in tinnitus." Frontiers in neuroscience 11 (2017): 71. 을 이용하였습니다. 결과 분석을 간단하게 알려드리기 위해서 포스팅합니다. plink를 돌리게 되면 주로 결과는 MAF를 이용하여 확인하게 됩니다. 질병군 정상군 Minor Allele Frequency Major Allele Frequency Minor Allele Frequency 일반 변이일 가능성이 농후 질병변이의 가능성 농후 Major Allele Frequency 일반 변이일 가능성이 농.. 2021. 2. 1.
MAF란? (Minor Allele Frequency) 모든 Bio관련 분석은 특정 변이를 기반으로 분석하기 때문에 변이와 연관된 단어인 MAF는 Bioinformatics를 하면서 가장 많이 보게 되는 단어일 수 있습니다. 위키에 MAF는 다음과 같이 이야기하고 있습니다. (위키는 참고용으로 생각하고 있습니다.) MAF는 주어진 population에서 두번째로 빈번하게 나오는 변이라고 합니다. 말 그대로 특정 population에서 Common하지 않는 (그렇다고 항상 Rare하다는 말은 아닙니다.) 변이라고 이야기합니다. 우리가 MAF를 중요하게 생각하는 이유는 바로 주어진 population에 따라서 MAF가 달라질수 있기 때문입니다. 예를들어 어떤 질병에 대해서 분석을 했을 경우 분석을 할때에는 질병만을 넣지 않고, 정상군도 추가로 넣어서 분석을 하게.. 2021. 2. 1.