반응형
대장암 환자 자료를 분석해 본다.
건강보험심사평가원에서 공개한 보건의료빅데이터개방시스템을 활용한다.
DF <- read.csv("example_cancer.csv")
데이터를 불러온다.
str(DF)
1만 8천개의 관측치와 8개의 변수가 있다.
DegreeOfAge <- table(cut(DF$age, breaks=(1:11)*10))
DegreeOfAge
연령대별로 도수값을 구한다.
cut()함수로 연령대별 도수를 구한다. Breaks에 1:11이라 적은 것은 1부터 11까지라는 의미이다. 거기에 10을 곱했으니 10, 20, 30,... 110이 값으로 사용되게 된다.
이렇게 breaks에 나눌 개수가 아니라 값의 위치를 넣어 구간을 나눌 수 있다.
rownames(DegreeOfAge) <- c("10s", "20s", "30s", "40s", "50s", "60s", "70s", "80s", "90s", "100s")
DegreeOfAge
열의 이름을 바꾼다. 60대가 대장암 발병이 가장 높다.
library("ggplot2")
library("ggthemes")
ggplot(data=DF, aes(x=age)) + geom_freqploy(binwidth=10, size=1.4, colour="orange") + theme_wsj()
ggplot2 패키지를 사용해 그래프를 그려 시각화 시켜본다.
반응형
'프로그래밍언어 > R' 카테고리의 다른 글
[R] : 데이터 프레임 다루기(4) (0) | 2022.03.23 |
---|---|
[R] : 데이터 개념 이해하기(3) (0) | 2022.03.14 |
[R] : 데이터 개념 이해하기(1) (0) | 2022.03.14 |
[R] : 데이터 프레임 다루기(3) (0) | 2022.03.14 |
[R] : 데이터 프레임 다루기(2) (0) | 2022.03.14 |
댓글