본문 바로가기
기본적인프로그래밍/R

[R] ggplot 산점도 만들 때 순서 정하기.

by 인포메틱스 2021. 3. 10.
반응형

 

데이터분석시에 산점도를 그릴때, 한번씩 겪는 문제가 있습니다. 데이터가 너무 모여있는 문제입니다..

 

내가 표현하고 싶은 점은 미리 찍혀서 다른 데이터들에게 묻히는 경우가 허다합니다.

 

이럴땐 어떻게 해야할까요?

 

내가 봐야할것은 초록인데, 어디에 있니.. ㅆㅂㅆㅂ

 

이럴 경우 다음과 같은 해결책이 있습니다.

 

1. alpha를 사용

geom_points를 이용하여 점의 희미도를 증가시킵니다.

 

ggplot(data=mat)+
geom_points(aes(x=x,y=y=col=type),alpha=0.5)

 

그래도 잘 안보인다...

 

2. geom_points 순서 (점찍는 순서 변경)

 

 geom_points의 순서를 다르게 표현하면 됩니다. 먼저 전체 geom_points를 넣고, 다음 subset geom_points를 추가해주면 됩니다.

 

ggplot(data=mat)+
geom_point(aes(x=x,y=y,col=type))+
geom_point(data=subset(mat,type=='test'),aes(x=x,y=y,col=type))

subset안에 type의 경우 mat이라는 데이터안에 type이라는 colname이 있어야 합니다. 그중에 'test'라는 표시를 갖는 변수가 있어야 작동이 됩니다.

 

subset은 데이터의 sub group을 만들어주는 기능을 합니다.

 

뭔가 그럴사하게 만들어졌습니다.

 

여기에 1에서 배웠던 alpha를 추가하면 좀더 예쁘게 나올 것 같습니다.

 

ggplot(data=mat)+
geom_point(aes(x=x,y=y,col=type),alpha=0.5)+
geom_point(data=subset(mat,type=='test'),aes(x=x,y=y,col=type),alpha=0.5)  

 

뭔가 그럴사하게 예쁘게 나왔습니다.

 

여기까지 데이터가 너무 몰려있을 경우 산점도를 찍는 방법에 대해서 알아보았습니다.

 

데이터가 몰려있는경우라면 density plot등을 이용하여 어디에 많이 몰려있는지를 볼수도 있습니다.

 

그러나 결과를 보여줄때, 내가 찾은 데이터의 결과는 전체중에 어디에 있다는 것을 확인하기 위해서 알아두면 좋을 것 같습니다.

 

 

728x90
반응형

댓글