본문 바로가기
Data Base/Hadoop

[Hadoop] : 하둡, 맵리듀스 프로젝트 IP 별 호출 빈도 수 분석하기

by 오주현 2022. 4. 28.
반응형

access_log 파일로부터 URL을 호출한 IP별 빈도수를 분석한다.

 

Access_log에 저장되는 항목들은 전세계 공통이다.

 

주요 항목 구성으 IP주소 - 접속시간 - 통신방법 - 통신프로토콜 - 전송코드이다.

cd /data/file
gzip -d access_log
hadoop fs -put /data/file/access_log /access_log

파일 압축을 풀어주고 hadoop으로 옮겨준다.

 

코드는 아래 링크에서 확인한다.

 

https://ohju96.notion.site/IP-5f41cf74fc6846a6ab8b652c7c2c6634

 

IP 별 호출 빈도수 분석하기

access_log 파일로부터 URL을 호출한 IP별 빈도수를 분석한다.

ohju96.notion.site

 

빌드를 다시 해서 파일을 넣어줘야 한다.

hadoop jar mr.jar hadoop.MapReduce.ip.IPCount /access_log /resutl3

분석 결과를 저장한다.

hadoop fs -ls -r /result3

파일 결과를 확인한다.

hadoop fs -cat /result3/*

분석된 파일을 읽어본다.

반응형

댓글