본문 바로가기
약물

[약물] ECFP fingerprints 간단한 정리

by 인포메틱스 2021. 3. 24.
반응형

약물의 fingerprint 중에 topological fingerprint는 약물의 유사도나 substructure 를 검색하기 위하여 개발이 되었습니다. 그중에서 많이 사용하는 방법중 하나가 바로 ECFP입니다.

 

약물의 유사도의 경우 설명을 하지 않아도 우리가 비슷한 약물이 비슷한 짓을 할것이다 라고 생각하기 때문에 유사성을 보려는 시도를 예전부터 많이 하였습니다.

 

ECFP는 2010년에 Rogers, David, and Mathew Hahn. "Extended-connectivity fingerprints." Journal of chemical information and modeling 50.5 (2010): 742-754. 라는 논문에서 처음 나왔습니다.

 

논문에서 나온 ECFP 만드는 과정은 다음과 같습니다.

 

1. An initial assignment stage

 각 원자에 대해 식별합니다.

 (each atom has an integer identifier assigned to it.)

 ECFP는 기본적으로 Daylight atomic invariants rule을 이용하고 FCFP는 원자의 기능적인 구조(pharmacophore role)를 이용하여 진행합니다.  이외에도 다른 Sybyl atom types, aLog P atom codes를 이용하여 사용할수도 있습니다.  

 

 Daylight atomic invariants rule에 의해 원자의 numbering말고 분자안에서의 원자의 성질을 이용합니다.

 (Daylight atomic invariants rule은 궁금하시면 조금 찾아보셔야 할 것같습니다. 그냥 단순히 주변 구조나 특징들을 이용하여 숫자화 시킨다 라고 생각하시면 될 것 같습니다.)

 

원자의 numbering이란 아래 그림을 보시면 이해가 됩니다.

Benzoic acid amide atom numbering.

 

 결과적으로 아래에 보시면 Identifiers의 숫자들이 Daylight atomic invariants를 이용하여 만든 것입니다.

 

출처 : https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md

 

 

 

2. An iterative updating stage

 각 원자의 주변을 반영을 하고 , 다른 특징의 중복인지 아닌지를 확인하여 내용 추가합니다.

 (each atom identifier is updated to reflect the identifiers of each atom's neighbors, including identification of whether it is a structural duplicate of other features.)

 

이것의 내용도 위의 그림을 보면 되는데, Diameter 크기에 따라 각 원소를 기준으로 어떤 특징이 있는지 내용을 추가해주는 것입니다.

 

 아래를 보시면 Diameter 크기에 따른 포함되는 특징들을 보여줍니다.

출처 : ECFP 논문

 

출처 : ECFP논문

3. A duplicate identifier removal stage

 같은특징의 여러번 발생한 것을 하나의 표현으로 줄임. (발생횟수는 필요하면 유지가 가능하다)

 ( multiple occurrences of the same feature  are reduced to a single representative in the final feature list. (The occurrence count may be retained if one requres a set of counts rather than a standard binary fingerprint.))

 

Diameter의 수가 0이상일때 나타날수 있는 상황이 아래 그림과 같습니다.

( 대부분 Diameter가 클때 발생을 많이 하겠죠? 작은 분자끼리 비교시에도 Diameter가 크면 아래 그림과 같은 상황이 나타날 빈도가 높으니까요., 그렇기 때문에 주로 ECFP4를 주로 사용한다고 합니다. ECFP(숫자) 숫자 = diameter )

 

출처 : ECFP논문

 

 위 경우에는 물론 숫자화(hash)가 되는 것은 다르지만 같은 범위와, 원자를 갖게 됨으로 정보의 중복이 됩니다. 그렇기 때문에 이를 제거해줘야 합니다.

 

 

마지막으로 ECFP는 binary화를 시킵니다. 당연히 같은 약물은 같은 binary가 나오고 약물의 특징을 binary로 변경하여 결과가 나옵니다.

 

binary로 표현되는 것은 binary의 길이, ECFP의 Identifier를 이용하여 binary로 변경시키는것 같습니다.

( 궁금하시다면 Fixed-length bit string에 대해 찾아보세요!)

 

binary의 경우 기본(Default)가 1024개로 표현됩니다.  그리고 특정 ECFP identifier의 경우 특정 번째에 표시가 되도록 만드는 것 같습니다.

 

출처:https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md

 

 

이러한 binary를 이용한 변환도 당연히 단점이 있는데,

 

1. binary의 개수가 적으면 그만큼 표현되는 약물이 한정적이다. (그래서 대부분 default이용)

2. 다른 약물 같은 binary 결과가 올수가 있다는 것입니다. (binary의 개수를 늘리게되도 마찬가지 다른경우가 나옴.)

 

이렇게 나온 binary 값을 이용하여 tanimoto coefficient를 이용하여 약물간의 유사도를 확인할 수가 있습니다.

 

최근에는 ECFP와 같은 Topological 보다는 QSAR, deep learning을 이용하여 연구가 많이 이루어지고 있습니다.

728x90
반응형

댓글