본문 바로가기
Data Base/Hadoop

[Hadoop] : Hadoop 자문 자답 12제

by 오주현 2021. 12. 9.
반응형

1. 다음 gz로 압축된 로그 파일에 존재하는 이미지 호출에 대해 하둡분산파일시스템에 업로드하는 명령어를 작성하시오.

- 이미지 파일 확장자 : jpeg, jpg, png, gif

- 업로드되는 파일명 : /img/log

- 로그파일 : /access_log.gz

💡 대소문자 구분) zcat access_log.gz | grep -E 'JPEG|JPG|PNG|GIF' | hadoop fs -put - /img/log

대소문자 구분없음) zcat access_log.gz | grep -Ei 'JPEG|JPG|PNG|GIF' | hadoop fs -put - /img/log

 

2. 다음 gz로 압축된 로그 파일에 10.250 대역의 IP 호출에 대해 하둡분산파일시스템에 업로드하는 명령어를 작성하시오.

- 업로드되는 파일명 : /ip/log

- 로그파일 : /access_log.gz

💡 zcat access_log.gz | grep -E ’10\.250\.[0-9]{1,3}\.’ | hadoop fs –put - /ip/log

 

3. 하둡의 TEXT 명령어와 CAT명령어의 차이점을 작성하시오.

💡 text 명령어는 cat 명령어에 비해 기능이 강화됐고 gz파일로 압축된 파일도 내용 확인이 가능하다.

 

4. 하둡분산파일시스템에 업로드된 access_log 파일에 추가되는 데이터를 실시간으로 확인하기 위한 명령어를 작성하시오.

💡 hadoop fs -tail -f /access_log

 

5. 하둡분산파일시스템의 체크섬의 특징을 작성하시오.

💡

  1. 로컬파일이 하둡분산파일시스템으로 업로드될 때, 100% 완벽히 올라가기 위해 생성되는 정보이다.
  2. md5해시함수를 통해 데이터의 무결성 검증
  3. 모든 분산처리시스템과 같이 네트워크 기반으로 데이터 전송될 때 반드시 사용됨

6. 하둡의 필수 구성요소 3가지를 작성하시오.

💡

  1. 하둡분산파일시스템
  2. 맵리듀스

7. 메이븐의 특징에 대해 작성하시오.

💡 주로 소스 배포 및 라이브러리 관리 등을 수행하고 Pom.xml 파일을 통해 배포, 라이브 등 다양한 기능을 설정 및 관리합니다.(POM : Project Object Model)

 

8. 프로그래밍한 자바파일을 my.jar 파일로 압축한 파일을 하둡에서 실행하기 위한 명령어를 작성하시오.

- jar 파일명 : /my.jar (실행할 파일)

- 실행할 자바패키지 명은 없음 (실행할 패키지명)

- main함수가 존재하는 자바 클래스명 : MyJavaFile (실행할 자바명)

- main함수의 파라미터 : newFile, TestContents (인자값)

💡 패키지명이 hadoop일 경우

hadoop jar /my.jar hadoop.MyJavaFile /newFile TestContents

 

9. 하둡분산파일시스템의 /log 폴더에 모든 권한을 부여하는 명령어를 작성하시오.

💡 hadoop fs -chmod 777 /log

 

10. 하둡분산파일시스템의 /log 폴더의 하위폴더까지 조회하는 명령어를 작성하시오.

💡 hadoop fs -lsr /log

 

11. 하둡분산파일시스템의 /log 폴더의 용량을 확인하는 명령어를 작성하시오.

💡 hadoop fs -du /log

 

12. 하둡분산파일시스템의 /log/access_log 파일을 다운로드하기 위한 명령어를 작성하시오.

- 다운로드 장소 : CentOS의 /data

💡 hadoop fs -get /log/access_log /data

 

반응형

댓글