본문 바로가기

r21

[유사도측정, 데이터분석] 유사도 측정의 중요성 최근 빠져있는 주제가 있습니다. 바로 유사도 입니다. 빠져있기 보다는 데이터 분석에서 항상 중요하다고 생각되는 부분이라고 말하고 싶습니다. 대부분의 Deep learning 모델에서 이런 유사도를 이용하여 분석이 이루어지기도 합니다. 앞으로 포스팅은 이 유사도 방법에 대한 개념들을 몇가지 포스팅 하고자 합니다. 1. 유사도란? 유사도는 다양하게 이용할 수가 있는데, 주로 classification에 이용된다고 생각합니다. 어떠한 데이터가 들어왔을 때, 이 데이터를 판별하기 위하여 사람들은 유사도를 이용합니다. 아주 유명한 짤이 머핀과 치와와 짤입니다. 유사도의 특징은 주로 0~1사이의 값을 갖고, 0로 갈수록 매우 낮은 유사성을 갖고, 1로 갈수록 높은 유사성을 갖습니다. 치와와 머핀 이외의 간단한 예시.. 2022. 12. 2.
[R] ssgsea 의 scoring방법을 실습을 통해 이해해 보기 1. ssgsea 간단 설명 ssgsea는 single sample gene set enrichment analysis 의 약자입니다. GSEA 라는 분석의 경우 두 그룹간의 발현값들을 비교하여 결과를 내는 방식인 반면(GSEA 계산하는 방법도 추후에 알아보고 올리도록 하겠습니다.) ssgsea의 경우 각 샘플 내에서 원하는 Gene set이 얼만큼 발현이 되었는지에 대해서 확인할 수가 있습니다. 계산을 어떻게 하는지 궁금해서 찾아봤는데, ssgsea의 경우 다음 연구에서 처음 사용이 되었습니다. https://www.nature.com/articles/nature08460#online-methods 2. ssgsea의 계산 방법 위에 그림에나오는 부분이 ssgsea의 식입니다. 저도 수학 전공이 아니다.. 2022. 4. 11.
[R] R package error 해결 방법 중 하나 Single cell 분석에서 아주 화가나는 error가 발생했었습니다. jointlevel_fft_twosided.cpp:10:10: fatal error: fftw3.h: No such file or directory #include ^~~~~~~~~ compilation terminated. /home/user/anaconda3/lib/R/etc/Makeconf:181: recipe for target 'jointlevel_fft_twosided.o' failed make: *** [jointlevel_fft_twosided.o] Error 1 ERROR: compilation failed for package ‘qqconf’ * removing ‘/home/user/R/x86_64-conda-li.. 2022. 3. 22.
[R] RColorBrewer 이용해서 색감을 확인해보자. (feat. pheatmap) 논문이나 보고서를 쓸때 heatmap을 그릴 때가 있습니다. 그럴때마다 항상 고민인 것은 Annotation color를 지정하는것입니다. 이번 포스팅은 RColorBrewer를 이용해서 쉽게 색감들의 이름을 확인해보고자 합니다. 먼저 연습 데이터로 Annotation color를 사용하는 heatmap을 그려보겠습니다. 연습데이터는 ggplot2에 있는 diamonds 데이터를 이용하겠습니다. library(ggplot2) library(pheatmap) data(diamonds) diamonds 2021. 12. 21.
[R] bool로 받기 (na인지 아닌지, 대소문자인지 아닌지 확인) for문을 돌리다 보면 if문을 써야 할 때가 있고 다양하게 조건을 걸어야하는 경우가 생깁니다. 조건을 숫자로 이용할때도 있고, 혹은 NA인지, Null인지 아닌지를 확인하는 경우도 생깁니다. 그러는 경우는 is.(조건)만으로 대부분 확인이 가능합니다. is.array(x) is.numeric(x) is.character(x) is.factor(x) is.finite(x) is.interger(x) is.list(x) is.matrix(x) is.null(x) is.na(x) etc... is.상태 를 이용하면 bool로 받을 수가 있다. 최근에 UCSC에서 유전자 sequence 를 얻어서 분석하게 되었는데, 여기서 필요한 것이 대문자이냐? 소문자이냐? 라는 것을 알아야 했습니다. (UCSC에서는 Ex.. 2021. 10. 19.
[R] pheatmap에 오류발생 (NA/NaN/Inf in foreign function call) pheatmap을 다루던 중 오류가 발생을 하는 경우가 있습니다. 그중 최근 해결한 문제들에 대해서 간단하게 포스팅 해보도록 하겠습니다. Error in hclust(d, method = method) : NA/NaN/Inf in foreign function call (arg 10) Calls: pheatmap -> cluster_mat -> hclust Execution halted 위와 같은 문제는 데이터안에 NA, nan inf가 있는지 확인하시고 만약 세개다 없을 경우 row든 column이든 평균이 0인 경우를 제외하면 됩니다. # NA 확인 View(apply(mat,1,is.na)) # NAN 확인 View(apply(mat,1,is.nan)) # Inf 확인 View(apply(mat,1.. 2021. 4. 19.