반응형
access_log 파일로부터 URL을 호출한 IP별 빈도수를 분석한다.
Access_log에 저장되는 항목들은 전세계 공통이다.
주요 항목 구성으 IP주소 - 접속시간 - 통신방법 - 통신프로토콜 - 전송코드이다.
cd /data/file
gzip -d access_log
hadoop fs -put /data/file/access_log /access_log
파일 압축을 풀어주고 hadoop으로 옮겨준다.
코드는 아래 링크에서 확인한다.
https://ohju96.notion.site/IP-5f41cf74fc6846a6ab8b652c7c2c6634
빌드를 다시 해서 파일을 넣어줘야 한다.
hadoop jar mr.jar hadoop.MapReduce.ip.IPCount /access_log /resutl3
분석 결과를 저장한다.
hadoop fs -ls -r /result3
파일 결과를 확인한다.
hadoop fs -cat /result3/*
분석된 파일을 읽어본다.
반응형
'Data Base > Hadoop' 카테고리의 다른 글
[Hadoop] : 맵리듀스 제어 함수, setup, cleanup (0) | 2022.05.03 |
---|---|
[Hadoop] : ToolRunner 사용하기 (0) | 2022.05.03 |
[Hadoop] : 하둡, 맵리듀스 프로젝트, 3글자 이상인 단어만 빈도 수 분석해보기 (0) | 2022.04.28 |
[Hadoop] : 맵리듀스 버전 별 차이 (0) | 2022.04.28 |
[Hadoop] : 맵리듀스를 활용해서 단어별 빈도수 분석, 단어 세기 (0) | 2022.04.26 |
댓글