Data Base/Hadoop
[Hadoop] : 하둡, 맵리듀스 프로젝트 IP 별 호출 빈도 수 분석하기
오주현
2022. 4. 28. 16:19
반응형
access_log 파일로부터 URL을 호출한 IP별 빈도수를 분석한다.
Access_log에 저장되는 항목들은 전세계 공통이다.
주요 항목 구성으 IP주소 - 접속시간 - 통신방법 - 통신프로토콜 - 전송코드이다.
cd /data/file
gzip -d access_log
hadoop fs -put /data/file/access_log /access_log
파일 압축을 풀어주고 hadoop으로 옮겨준다.
코드는 아래 링크에서 확인한다.
https://ohju96.notion.site/IP-5f41cf74fc6846a6ab8b652c7c2c6634
IP 별 호출 빈도수 분석하기
access_log 파일로부터 URL을 호출한 IP별 빈도수를 분석한다.
ohju96.notion.site
빌드를 다시 해서 파일을 넣어줘야 한다.
hadoop jar mr.jar hadoop.MapReduce.ip.IPCount /access_log /resutl3
분석 결과를 저장한다.
hadoop fs -ls -r /result3
파일 결과를 확인한다.
hadoop fs -cat /result3/*
분석된 파일을 읽어본다.
반응형