반응형
데이터분석시에 산점도를 그릴때, 한번씩 겪는 문제가 있습니다. 데이터가 너무 모여있는 문제입니다..
내가 표현하고 싶은 점은 미리 찍혀서 다른 데이터들에게 묻히는 경우가 허다합니다.
이럴땐 어떻게 해야할까요?
이럴 경우 다음과 같은 해결책이 있습니다.
1. alpha를 사용
geom_points를 이용하여 점의 희미도를 증가시킵니다.
ggplot(data=mat)+
geom_points(aes(x=x,y=y=col=type),alpha=0.5)
2. geom_points 순서 (점찍는 순서 변경)
geom_points의 순서를 다르게 표현하면 됩니다. 먼저 전체 geom_points를 넣고, 다음 subset geom_points를 추가해주면 됩니다.
ggplot(data=mat)+
geom_point(aes(x=x,y=y,col=type))+
geom_point(data=subset(mat,type=='test'),aes(x=x,y=y,col=type))
subset안에 type의 경우 mat이라는 데이터안에 type이라는 colname이 있어야 합니다. 그중에 'test'라는 표시를 갖는 변수가 있어야 작동이 됩니다.
subset은 데이터의 sub group을 만들어주는 기능을 합니다.
여기에 1에서 배웠던 alpha를 추가하면 좀더 예쁘게 나올 것 같습니다.
ggplot(data=mat)+
geom_point(aes(x=x,y=y,col=type),alpha=0.5)+
geom_point(data=subset(mat,type=='test'),aes(x=x,y=y,col=type),alpha=0.5)
여기까지 데이터가 너무 몰려있을 경우 산점도를 찍는 방법에 대해서 알아보았습니다.
데이터가 몰려있는경우라면 density plot등을 이용하여 어디에 많이 몰려있는지를 볼수도 있습니다.
그러나 결과를 보여줄때, 내가 찾은 데이터의 결과는 전체중에 어디에 있다는 것을 확인하기 위해서 알아두면 좋을 것 같습니다.
728x90
반응형
'기본적인프로그래밍 > R' 카테고리의 다른 글
[R] heatmap에 있는 원하는 그룹 가져오기 (4) | 2021.04.09 |
---|---|
[R] /usr/bin/ld: cannot find -lgfortran error 해결하기 (0) | 2021.03.30 |
[R] rcdk설치시 오류 해결방법 (0) | 2021.01.29 |
[R] Plot에 expression을 이용하여 특수기호 추가하기! (0) | 2020.11.25 |
[R] R에서 시간을 다루기! (시, 분, 초, 요일 가져오기) (0) | 2020.11.02 |
댓글