분류 전체보기206 [scikit-learn, python] machine learning 에 주로 사용되는 python module 이번 포스팅은 machine learning을 하려면 필수적으로 알아야할 library인 scikit-learn에 대해서 이야기하고자 합니다. 1. scikit-learn은 (소개) 머신러닝은 데이터에서 지식을 추출하고, 패턴을 학습하며, 예측을 수행할 수 있는 강력한 기술로, 현대의 많은 기술 혁신과 응용 프로그램에서 중심적인 역활을 합니다. 요즘은 딥러닝이 핫한거 아닌가? 라고 하실 하실 수 있겠지만, 딥러닝은 머신러닝에 속해 있습니다. 그리고 여전히 딥러닝 이외의 machine learning들이 최근 연구에서도 다양하게 사용되는 것을 연구하다보면 알수가 있습니다. 예를들어 netfilx에서 개인에게 작품을 추천할때에도 machine learning을 이용한다고 들었습니다. scikit-learn은.. 2024. 4. 4. [임상실험]Geographic Atrophy 치료제 임상 (Apellis Pharmaceuticals) 1. Geographic atrophy (GA)란? Geographic atrophy (GA)는 지리적 황반변성은 눈의 망막에 발생하는 질병으로, 노인 황반변성(AMD)의 한 형태입니다. 이 질병은 망막 중앙 부분인 황반에 있는 세포들이 손상되어 시력을 점차 잃게 만드는 것으로 황반은 시간의 중심을 담당하으로 시력에 중요한 영향을 미칩니다. GA에 걸리게 되면, 망막 중앙 부분이 희미해지고, 눈알의 중앙에 있는 시각의 중심 부분이 손상되어 시야가 흐리게 보이는 것이 특징입니다. 해당 질병은 노화와 관련이 있으며, 노화로 인한 망막의 변화와 눈 건강에 영향을 미치는 요인들에 의하여 질병이 유발될 수 있습니다. 증상으로는 시야가 흐리고 깜박이는 경우가 있다고 합니다. 또한, 시야의 중앙 부분이 희미하게 보이.. 2024. 2. 21. [pytorch] transforms.Compose 사용법 1. Intro 요즘 이미지 분석에 대해서 흥미가 생겨서 열심히 공부하고 있습니다(사실 관련된 일을 맡게 되었습니다. 먹고살려고 빡시게 공부중입니다.). tensorflow를 공부하려다가 pytorch가 사용하기 편하다는 이야기를 듣고 바로 pytorch로 마음을 돌렸습니다. 바로 본론으로 들어가도록 하겠습니다. 딥러닝에서 이미지관련 모델을 제작할 때, 힘든 부분 중 하나가 바로 데이터의 양이지 않을까 싶습니다. 제한된 이미지에서 좋은 모델을 제작하기 위해서 사람들이 생각을 해낸 것은 Data augmentation입니다. Data augmentation은 생각보다 쉽습니다. 각도나, 명암을 변경하던지, 부분을 자르던지 다양한 방법으로 통해 augmentation 을 할 수 있습니다. Data augme.. 2024. 1. 15. [python] 데이터 사이언스에서 필요한 Library들? 0. Intro 다양한 정보를 많이 알고 있으면, 그에 따라 응용도 쉽게 됩니다. 그렇기 때문에, 다양한 정보의 습득은 아주 중요하다고 생각합니다. 이번에 제가 가져온 포스팅은 알면 많이 사용 가능할 것 같은 Library를 가져왔습니다. 몇 Libaray는 추가로 포스팅도 진행해보겠습니다. 1. Dask : 병렬컴퓨팅을 이용한 library pandas는 사람들이 가장 많이 사용하는 library중 하나입니다. 단점은 큰 데이터의 경우 읽어오는데, 혹은 만지는데 느릴수있다는 단점이 있습니다. 이를 해결하기 위하여 추천하는 Library가 Dask라고 할수있습니다. Dask는 병렬 컴퓨팅이 가능합니다. 그렇기 때문에 big data에서 쉽게 사용이 가능합니다. 간단한 예시 import dask.dataf.. 2024. 1. 2. [python] loop문 말고 대세는? Vectorization?! 안녕하십니까. 오랜만에 글을 올립니다. 1. intro python에서 자주 사용되는 문법중 하나는 단언코 loop문일 것 입니다. 그런데 최근 이 loop문보다 효율적인 방법이 있다고 하여 정리해서 올려보자 합니다. loop문은 수많은 반복 (때에 따라서 수십만이상)을 할때 주로 사용할 수 있습니다. 그런데 loop문의 단점은 몇 시간동안 모든 반복을 마치고나서 결과가 잘못되었구나를 알아차리는 경우가 있습니다. 그렇기 때문에 loop를 일부 대체할 수 있는 Vectorization(백터화)의 소개는 중요하다고 생각이 듭니다. 2.백터화란? dataset에서 numpy에서 사용되는 array operation을 구현하는 기술입니다. for문보다는 모든 요소에 한번에 적용을 시킬 수가 있습니다. 2-1. .. 2024. 1. 2. [Torch] RuntimeError DataLoader worker pids 15332 exited unexpectedly 에러가 나는 이유? 1. Introduction 딥러닝을 하다보면 다음과같은 에러가 발생할 때가 있다. RuntimeError : DataLoader worker pids * exited unexpectedly 구글에 찾아보면 dataloader에 num_workers = 0 으로 수정하면 된다는 포스팅이 보인다. 혹은 에러나는 부분의 구문을 삭제하라는등.. 이런 해결책이 보인다. dataloader에서 사용하고 있는 num_workers는 병렬로 처리해서 분석해주는 것이기 때문에 데이터가 클 때 빠르게 분석하고 싶다면 필수적으로 사용해야한다. 대신 무턱대로 숫자를 올리면 서버가 너무 느려지니 고려해야한다. 2. 이유가 뭔데? 에러의 이유는 다양하다. - 이것저것 많이 돌려서 메모리가 충분하지 않거나 - 데이터의 문제가 있.. 2023. 9. 26. 이전 1 2 3 4 5 ··· 35 다음