본문 바로가기

기본적인프로그래밍/python25

[scikit-learn, python] machine learning 에 주로 사용되는 python module 이번 포스팅은 machine learning을 하려면 필수적으로 알아야할 library인 scikit-learn에 대해서 이야기하고자 합니다. 1. scikit-learn은 (소개) 머신러닝은 데이터에서 지식을 추출하고, 패턴을 학습하며, 예측을 수행할 수 있는 강력한 기술로, 현대의 많은 기술 혁신과 응용 프로그램에서 중심적인 역활을 합니다. 요즘은 딥러닝이 핫한거 아닌가? 라고 하실 하실 수 있겠지만, 딥러닝은 머신러닝에 속해 있습니다. 그리고 여전히 딥러닝 이외의 machine learning들이 최근 연구에서도 다양하게 사용되는 것을 연구하다보면 알수가 있습니다. 예를들어 netfilx에서 개인에게 작품을 추천할때에도 machine learning을 이용한다고 들었습니다. scikit-learn은.. 2024. 4. 4.
[python] 데이터 사이언스에서 필요한 Library들? 0. Intro 다양한 정보를 많이 알고 있으면, 그에 따라 응용도 쉽게 됩니다. 그렇기 때문에, 다양한 정보의 습득은 아주 중요하다고 생각합니다. 이번에 제가 가져온 포스팅은 알면 많이 사용 가능할 것 같은 Library를 가져왔습니다. 몇 Libaray는 추가로 포스팅도 진행해보겠습니다. 1. Dask : 병렬컴퓨팅을 이용한 library pandas는 사람들이 가장 많이 사용하는 library중 하나입니다. 단점은 큰 데이터의 경우 읽어오는데, 혹은 만지는데 느릴수있다는 단점이 있습니다. 이를 해결하기 위하여 추천하는 Library가 Dask라고 할수있습니다. Dask는 병렬 컴퓨팅이 가능합니다. 그렇기 때문에 big data에서 쉽게 사용이 가능합니다. 간단한 예시 import dask.dataf.. 2024. 1. 2.
[python] loop문 말고 대세는? Vectorization?! 안녕하십니까. 오랜만에 글을 올립니다. 1. intro python에서 자주 사용되는 문법중 하나는 단언코 loop문일 것 입니다. 그런데 최근 이 loop문보다 효율적인 방법이 있다고 하여 정리해서 올려보자 합니다. loop문은 수많은 반복 (때에 따라서 수십만이상)을 할때 주로 사용할 수 있습니다. 그런데 loop문의 단점은 몇 시간동안 모든 반복을 마치고나서 결과가 잘못되었구나를 알아차리는 경우가 있습니다. 그렇기 때문에 loop를 일부 대체할 수 있는 Vectorization(백터화)의 소개는 중요하다고 생각이 듭니다. 2.백터화란? dataset에서 numpy에서 사용되는 array operation을 구현하는 기술입니다. for문보다는 모든 요소에 한번에 적용을 시킬 수가 있습니다. 2-1. .. 2024. 1. 2.
[pytorch,smp] 모델 weights 경로 일하는 곳이 병원이다보니 민감한 데이터를 다루게 되고, 그에 따라 제한적으로 연구가 가능합니다. 너무 불편한점 중 하나가 분석하는 컴퓨터에 외부인터넷을 못하게 하는 단점이 있습니다. 그러다 보니 딥러닝 모델의 weights를 외부에서 따로 넣어줘야 하는데, 설명이 안 써져 있어서 많이 찾아보았습니다. 휴우... 결과는 뭐냐.. torch와 segmentation_models_pytorch 이 두 module다 같은 경로에서 model weights를 가져오더군요.. 윈도우 기준 C:\Users\사용자이름\.cache\torch\hub\checkpoints 우분투 기준 /home/사용자이름/.cache/torch/hub/checkpoints/ 여기다가 모델들 weights를 넣어주면 됩니다. ( 인터넷이 .. 2023. 3. 14.
[python, pandas] Data scientist라면 알아야 할 기본 기능 1. Introduction Pandas module은 data scientist들이 가장 많이 사용하고 있는 모듈중 하나일 것입니다. 혹은 R 프로그래밍을 하셨던 분이라면, 유사하게 데이터를 다룰수 있도록 하는 모듈이 이 pandas일 것입니다. 주로 pandas는 pd로 줄여서 분석을 합니다. 이번 포스팅은 pandas에서 기본중에 기본기능에 대해서 이야기해보려고 합니다. 2. 기능들 실습에 사용되는 데이터는 다음에서 다운받으시면 됩니다. https://archive.ics.uci.edu/ml/datasets/iris UCI Machine Learning Repository: Iris Data Set Data Set Characteristics: Multivariate Number of Instanc.. 2023. 2. 15.
[jupyterlab] 404 Get 에러 발생 대처 최근 오랜만에 사무용 컴퓨터에 설치해놓은 jupyter-lab을 실행시키는데, 뭔가 내부적으로 꼬였는지 404 Get 이라는 스크립트와 함께 jupyter-lab이 실행이 안되었습니다. 구글에 찾아보니 다시 설치하는게 답이다 라는 말밖에 없더군요. 다시 설치를 해도 안되어서 이것 저것 만져보다가 해결이 되어서 포스팅을 합니다. 404 Get error대처 방법에 대해서 간단하게 설명하도록 하겠습니다. 이 문제의 해결에는 한가지 조건이 들어갑니다. config 파일 내부를 변경했을 경우 입니다. 처음 구글링의 해법인 다시 설치를 진행하였는데, 또다시 404 Get이 뜨면서 작동이 안되었습니다. 혹시나 하는 마음에 config파일은 다시 설치 전 후 그대로더군요. config파일의 경우 --generate-.. 2023. 2. 2.