본문 바로가기

MAF3

MAF란? (Minor Allele Frequency) 모든 Bio관련 분석은 특정 변이를 기반으로 분석하기 때문에 변이와 연관된 단어인 MAF는 Bioinformatics를 하면서 가장 많이 보게 되는 단어일 수 있습니다. 위키에 MAF는 다음과 같이 이야기하고 있습니다. (위키는 참고용으로 생각하고 있습니다.) MAF는 주어진 population에서 두번째로 빈번하게 나오는 변이라고 합니다. 말 그대로 특정 population에서 Common하지 않는 (그렇다고 항상 Rare하다는 말은 아닙니다.) 변이라고 이야기합니다. 우리가 MAF를 중요하게 생각하는 이유는 바로 주어진 population에 따라서 MAF가 달라질수 있기 때문입니다. 예를들어 어떤 질병에 대해서 분석을 했을 경우 분석을 할때에는 질병만을 넣지 않고, 정상군도 추가로 넣어서 분석을 하게.. 2021. 2. 1.
[GWAS] GWAS Quality Control (QC) GWAS를 진행함에 있어서 가장 중요한 것은 크기를 줄이는 것과 정확한 변이를 분석하는 것입니다. 1 . 대부분의 GWAS는 수백만개의 변이에서부터 수십개정도의 변이를 이용하여 분석함. 2. 분석할 때 population크기가 적당한 크기가 되어야함 (Statistics power를 확인해보시면됩니다.) 3. 그냥 바로 분석하기에는 1종오류, 2종오류가 많음. plink에는 여러 QC 방법들이 있음. 1. --hwe [pvalue] (hardy-Weinberg equilibrium) QC 설명이 늦었던 이유가 이 하디 법칙을 찾아보느라 늦었습니다. (pvalue구하는 것까지 구해보려했으나, plink pvalue같이는 못만들겠네요. 아시는분 저좀 알려주세요~~) 하디 법칙의 pvalue로 variants.. 2020. 6. 19.
[GWAS] Plink 유용한 기능 (2) (freq, hardy) 어제 포스팅에 이어서 오늘도 Plink 에서 유용한 기능 두번째!! plink를 이용해서 기본적인 통계기능들을 살펴보도록 하겠습니다. 일단 연습 문제를 만들기위해서! 다음과 같이 테스트 샘플을 만듭니다. Raw data = 이전 포스팅했던 이명관련 open data를 이용하였습니다. 파이썬이나 기타 방법으로 테스트 샘플을 만드시던지 아니면 raw data를 이용하세요! (그런데 오래걸릴 수 있습니다.) 1 . --freq[x] 분석을 진행할때, plink --bfile test_set --freqx --out freqx output : freqx.frqx 내용 : A1 , A2에 대해서 Homo, Hetero빈도수 확인이 가능합니다. plink --bfile test_set --freq --out fre.. 2020. 6. 10.