본문 바로가기

분류 전체보기206

[기본개념] 시퀀싱 파일이름 의미! NCBI에서 유전자들을 찾아볼 때, Reference Sequence를 확인할 수가 있다. 여기서 Reference sequencing을 보게되면 NM_머시기라고 되어있는것을 확인할 수가 있다. 가끔 NM말고도 다른 prefix를 보인는데 다음과 같이 정리하였다. Accession Prefix Molecule type Comment AC_ Genomic Complete genomic molecule, usually alternate assembly NC_ Genomic Complete genomic molecule, usually alternate assembly NG_ Genomic Incomplete genomic region NT_ Genomic Contig or scaffold, clone-bas.. 2020. 6. 8.
[GWAS] plink input format (형식확인) plink를 설치를 했으면, 설치폴더에 toy라는 파일들이 보입니다. toy.ped, toy.map 이렇게 두 파일의 경우 기본적인 plink input file format입니다. 샘플수가 많을경우 binary파일로 바꿔줘야하는데, 그렇게 바꾼 파일의 경우 뒤에 .bed,.bim,.fam 가 붙습니다. 기본적인 format에서 binary파일로 변환을 시킬수가 있는데 그러면 그 폴더 내에 toy_step1.bim, .bed, .fam이 생기게 됩니다. 우선 기본적인 input format을 확인해봅시다. vi*로 아무 toy파일로 들어가게되면 두 줄이 보인다. vi = 리눅스에서 터미널을 통해 텍스트를 읽어 올 수 있다. 용량이 많을 경우 느리게 반응함. 그럴때는 less -S 을 이용함. vi와 le.. 2020. 6. 5.
[GWAS] plink 설치 및 설정하기. Plink 설치하기 일단 구버전 말고 신버전( plink 1.90 beta )를 설치를 할겁니다! 준비물을 리눅스! 생물정보학을 하려면 리눅스는 필수라고 생각합니다. (맥포함) 왜냐하면! 윈도우로 뭔가를 돌리기에는 윈도우자체가 이것저것 기본적으로 돌아가는 것도 많고, 컴돌이들이 말하는 "돌아가는 것이 무겁다?" 라는 이유때문입니다. 그리고 무엇보다도! 이 블로그 내용은 대부분 리눅스 중심으로 설명을 하려고 합니다. www.cog-genomics.org/plink/ PLINK 1.9 1: Solaris is no longer explicitly supported, but it should be able to run the Linux binaries. 2: These are just mirrors of th.. 2020. 6. 4.
[GWAS] 시작 GWAS 개념은 추후에 진행하도록하고 먼저 GWAS에서 주로 많이 사용하는 Plink 사용법에 대해서 진행하도록 하겠습니다! 2020. 6. 3.
[기본개념] 정밀도와 재현율 실측값 (Observation value) Positive Negative 예측값 (Prediction value) Positive True positive (TP) False Negative (FN) (1종 오류) Negative False positive (FP) (2종 오류) True negative (TN) 정밀도(Positive predictive value)를 확인하기 위해서는 Precision = TP / (TP+FP) 재현률(Sensitivity)을 확인하기 위해서는 Recall = TP / (TP+FN) Specificity (True Negative Rate)를 확인하기 위해서는 specificity = TN / (TN+FP) Accuracy (정확도)를 확인하기 위해서는 Accurac.. 2020. 6. 2.
[기본개념] 귀무가설, 대립가설, pvalue정리 내용 귀무가설: Null hypothesis , H0 (혹은 영가설) 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장. 대립가설: Alternative hypothesis, H1 귀무가설에 반대적인 개념 (귀무가설이 거짓일 경우 대안적으로 참이되는 가설) p-value: 귀무가설이 참이라고 가정하였을때, 표본으로부터 얻어지는 통계치가 나타날 확률. 즉 pvalue가 낮다는 것은 귀무가설을 기각 시키고, 대립가설을 채택함. 예시 t.test 분석시 귀무가설 : 두 집단에서 차이가 없다 대립가설 : 두 집단에서 차이가 있다. t.test에서 pvalue가 만족시에 귀무가설을 기각하고, 대립가설을 채택함. 대부분 우리가 알기로는 귀무가설은 기각되어야하는 가설이라고 하지만 그렇지 않는 경우도 있음. 정규성 .. 2020. 6. 2.