1. 다음 gz로 압축된 로그 파일에 존재하는 이미지 호출에 대해 하둡분산파일시스템에 업로드하는 명령어를 작성하시오.
- 이미지 파일 확장자 : jpeg, jpg, png, gif
- 업로드되는 파일명 : /img/log
- 로그파일 : /access_log.gz
💡 대소문자 구분) zcat access_log.gz | grep -E 'JPEG|JPG|PNG|GIF' | hadoop fs -put - /img/log
대소문자 구분없음) zcat access_log.gz | grep -Ei 'JPEG|JPG|PNG|GIF' | hadoop fs -put - /img/log
2. 다음 gz로 압축된 로그 파일에 10.250 대역의 IP 호출에 대해 하둡분산파일시스템에 업로드하는 명령어를 작성하시오.
- 업로드되는 파일명 : /ip/log
- 로그파일 : /access_log.gz
💡 zcat access_log.gz | grep -E ’10\.250\.[0-9]{1,3}\.’ | hadoop fs –put - /ip/log
3. 하둡의 TEXT 명령어와 CAT명령어의 차이점을 작성하시오.
💡 text 명령어는 cat 명령어에 비해 기능이 강화됐고 gz파일로 압축된 파일도 내용 확인이 가능하다.
4. 하둡분산파일시스템에 업로드된 access_log 파일에 추가되는 데이터를 실시간으로 확인하기 위한 명령어를 작성하시오.
💡 hadoop fs -tail -f /access_log
5. 하둡분산파일시스템의 체크섬의 특징을 작성하시오.
💡
- 로컬파일이 하둡분산파일시스템으로 업로드될 때, 100% 완벽히 올라가기 위해 생성되는 정보이다.
- md5해시함수를 통해 데이터의 무결성 검증
- 모든 분산처리시스템과 같이 네트워크 기반으로 데이터 전송될 때 반드시 사용됨
6. 하둡의 필수 구성요소 3가지를 작성하시오.
💡
- 하둡분산파일시스템
- 맵리듀스
- 얀
7. 메이븐의 특징에 대해 작성하시오.
💡 주로 소스 배포 및 라이브러리 관리 등을 수행하고 Pom.xml 파일을 통해 배포, 라이브 등 다양한 기능을 설정 및 관리합니다.(POM : Project Object Model)
8. 프로그래밍한 자바파일을 my.jar 파일로 압축한 파일을 하둡에서 실행하기 위한 명령어를 작성하시오.
- jar 파일명 : /my.jar (실행할 파일)
- 실행할 자바패키지 명은 없음 (실행할 패키지명)
- main함수가 존재하는 자바 클래스명 : MyJavaFile (실행할 자바명)
- main함수의 파라미터 : newFile, TestContents (인자값)
💡 패키지명이 hadoop일 경우
hadoop jar /my.jar hadoop.MyJavaFile /newFile TestContents
9. 하둡분산파일시스템의 /log 폴더에 모든 권한을 부여하는 명령어를 작성하시오.
💡 hadoop fs -chmod 777 /log
10. 하둡분산파일시스템의 /log 폴더의 하위폴더까지 조회하는 명령어를 작성하시오.
💡 hadoop fs -lsr /log
11. 하둡분산파일시스템의 /log 폴더의 용량을 확인하는 명령어를 작성하시오.
💡 hadoop fs -du /log
12. 하둡분산파일시스템의 /log/access_log 파일을 다운로드하기 위한 명령어를 작성하시오.
- 다운로드 장소 : CentOS의 /data
💡 hadoop fs -get /log/access_log /data
'Data Base > Hadoop' 카테고리의 다른 글
[Hadoop] : master Server, Slave Server1, 2 설정하기 (0) | 2022.04.20 |
---|---|
[Hadoop] : 하둡을 위한 CentOS 설치 및 환경 셋팅 (0) | 2022.04.20 |
[Hadoop] : 웹 서버 배포(3부) (0) | 2021.11.18 |
[Hadoop] : 웹 서버 배포(2부) (0) | 2021.11.18 |
[Hadoop] : 웹 서버 배포(1부) (0) | 2021.11.18 |
댓글