본문 바로가기

similarity2

[유사도측정, 데이터분석] 유사도 측정의 중요성 최근 빠져있는 주제가 있습니다. 바로 유사도 입니다. 빠져있기 보다는 데이터 분석에서 항상 중요하다고 생각되는 부분이라고 말하고 싶습니다. 대부분의 Deep learning 모델에서 이런 유사도를 이용하여 분석이 이루어지기도 합니다. 앞으로 포스팅은 이 유사도 방법에 대한 개념들을 몇가지 포스팅 하고자 합니다. 1. 유사도란? 유사도는 다양하게 이용할 수가 있는데, 주로 classification에 이용된다고 생각합니다. 어떠한 데이터가 들어왔을 때, 이 데이터를 판별하기 위하여 사람들은 유사도를 이용합니다. 아주 유명한 짤이 머핀과 치와와 짤입니다. 유사도의 특징은 주로 0~1사이의 값을 갖고, 0로 갈수록 매우 낮은 유사성을 갖고, 1로 갈수록 높은 유사성을 갖습니다. 치와와 머핀 이외의 간단한 예시.. 2022. 12. 2.
약물의 유사도를 구해보자! (tanimoto, jaccard, fmscR) 약물은 각자의 Target에 작용하는 작용기들이 있습니다. 그렇기 때문에 사람들은 유사한 약물일수록 비슷한 기능을 할거다 라고 생각을 하게 됩니다. (실제로도 그러는 경우가 있죠. 예를 들어 탈모약들!) 그래서 약물의 유사도를 측정을 하게 되는데 주로 많이 사용되는 방법중 하나가 tanimoto coefficient입니다. (사실 tanimoto밖에 안배웠어요... 다른 방법도 아시면 아래 댓글남겨주세요) jaccard similarity라고도 하는 tanimoto 방식은 많은 곳에서 사용이 되고 있습니다. 예를들어 이미지분석에서 많이 사용이 되는 것으로 알려져있습니다. tanimoto coefficient의 식은 다음과 같습니다. 화합물에 유사도를 얻기 위해서는 유사도의 기준이 있어야겠죠 . 이 기준은.. 2020. 8. 12.