반응형
데이터 개념 이해하기(1)
20만건 관측치가 넘는 데이터셋의 명목형 변수 도수분포표를 만들어 본다.
install.packages("hflights")
먼저 데이터셋 패키지를 불러온다.
library("hflights")
패키지를 불러온다.
head(hflights,5)
데이터를 살펴본다.
str(hflights)
객체가 data.frame이고 관측치는 22만건 변수는 21이다.
CountOfDest <- table(hflights$Dest)
CountOfDest
특정 변수를 살펴보는데 이번에는 여러 목적지의 빈도수를 확인해 본다.
length(CountOfDest)
명목형 변수 개수 세기
length(벡터 혹은 리스트 등 데이터 관련 객체) , length() 함수는 리스트 혹은 벡터의 길이를 알려준다. 이 함수를 통해 몇 개의 원소가 있는지 알 수 있다.
지금 사용하고 있는 데이터에는 116개의 목적지가 있다고 나온다.
range(CountOfDest)
범위를 살펴본다.
range(벡터), 벡터의 원소 중에서 가장 작은 값과 가장 큰 값을 알려준다. 즉, 값의 범위를 알 수 있게 된다.
CountOfDest[CountOfDest==1]
CountOfDest[CountOfDest==9820]
최소값과 최대값의 이름을 찾는다.
제일 적은 곳은 오거스타 리저널 공항, 많은 곳은 댈러스 공항으로 나온다.
SelectedDest <- CountOfDest[CountOfDest > 6000]
SelectedDest
6000 횟수가 넘는 공항을 찾는다.
addmargins(SelectedDest, margin=1)
6000횟수가 넘는 공항들의 전체 합을 구한다.
barplot(SelectedDest)
마지막으로 막대그래프를 그려본다.
반응형
'프로그래밍언어 > R' 카테고리의 다른 글
[R] : 데이터 개념 이해하기(3) (0) | 2022.03.14 |
---|---|
[R] : 데이터 개념 이해하기(2) (0) | 2022.03.14 |
[R] : 데이터 프레임 다루기(3) (0) | 2022.03.14 |
[R] : 데이터 프레임 다루기(2) (0) | 2022.03.14 |
[R] : 데이터 프레임 다루기(1) (0) | 2022.03.11 |
댓글