반응형
오늘 포스팅할 내용은 concordance rate에 대한 이야기를 해보고자 합니다.
concordance rate란? 일치률이라고 영어를 해석할수가 있을 것 같습니다.
wikipedia에서 설명하는 concordance는 다음과 같습니다.
유전학에서 concordance는 쌍둥이에게서 나타내는 동일한 특성을 이야기한다 하고 나와있습니다.
특히나 일란성 쌍둥이의 경우 유전적으로 동일한 상태 이기 때문에 이를 Concordance라고 합니다.
반면 discordance의 경우는 이란성 쌍둥이에서 형질이 다른 특성을 이야기하는 경우이고, 유사한 형질이 쌍둥이 간 공유를 하지 않는 것을 뜻합니다.
concordance라는 말은 이러한 쌍둥이 연구이외에도 genotyping studies에서도 사용이 되는데, 변이의 위치를 이용하여 계산을 하게 됩니다.
당연히 동일 샘플이나, 일란성 쌍둥이를 분석을 한다면 concordance rate가 100%일 것이고, 이란성 쌍둥이의 경우 50%정도라고 이야기 하고 있습니다. (wikipedia)
2019년도에 나온 논문중에 scietific report에서 나온 논문중 "Empirical evaluation of variant calling accuracy using ultra-deep whole-genome sequencing data "가 있습니다.
위 논문에서는 같은 샘플에서 genotyping과 WGS depth별로 concordance rate를 확인하는 내용입니다.
당연히 같은 샘플에서 변이를 call한 것을 비교했기 때문에 최대 99%정도(depth X 13.7)의 일치률을 확인을 하였습니다.
그러나 INDEL에 대해서는 최대 60%정도의 concordance만 보인 것으로 확인되었습니다.
이 논문에서 여러분에게 알려주고 싶은 내용은 다음과 같습니다.
위 그림을 이용하여 concordance rate를 구할수 있다는 겁니다.
가끔 genotyping array의 정확성을 의심하는 사람들이 있을 경우 위와 같은 공식으로 concordance rate를 구하면 충분히 납득을 시킬수 있을 것 같습니다.
concordance rate를 구하는 방법은 분석할 사람들의 인종을 확인하고 해당 인종의 Genotyping DB 혹은 control로 사용하는 샘플들을 이용해도 괜찮겠죠?
전체 변이 분에 각 샘플마다 VCF에서 0/0, 0/1, 1/1과 같은 genotype의 동일성을 확인하는거죠.
샘플이 n개일 경우 n X n matrix의 concordance rate를 만들 수가 있을 것이고 전체의 평균을 확인하는 것이죠.
Wikipedia에서 쌍둥이간 concordance가 50%라고 이야기한 것으로 보아 대략 concordance rate의 경우 50~90%사이면 적당 할듯 합니다. (적어도 50% 이상일경우 맞다고 봐야지 않을까요?)
wikipedia에서 reference없이 쓰여져있는 것으로 보아 신빙성이 조금 떨어지긴 하지만 이것은 추후 1000G 분석을 하면서 업데이트 해보도록 하겠습니다. (혹은 관련논문 아신다면 댓글 달아주세요)
90%이상인 샘플들의 경우 동일 샘플일 확률도 있다는 것도 참고해야겠네요.
아 그리고 왜 해당인종의 genotyping db를 이용하냐면, 우리는 질병을 발생하는 원인 변이가 소수인 것을 알기 때문에 대부분의 변이의 빈도가 인종별로 비슷할 수 밖에 없을 것입니다. 이를 이용하여 genotyping의 정확성을 나타낼수가 있을듯 합니다.
728x90
반응형
'유전체 > GWAS' 카테고리의 다른 글
[GWAS] Imputation 시에 중복된 변이의 경우에는? (0) | 2021.03.03 |
---|---|
[GWAS] 결과 분석하는 방법 (assoc function) (17) | 2021.02.01 |
[GWAS] 데이터 QC하는 방법 (hardy-weinberg, missing genotype, etc) (0) | 2020.12.11 |
[GWAS] 교육과 질병과의 관계 (0) | 2020.12.01 |
[GWAS] GWAS 하기 위한 필수 요건! (5) | 2020.07.24 |
댓글