반응형 하둡압축파일1 [Hadoop] : 시퀀스 파일 압축 하둡분산파일시스템에 저장된 데이터는 압축하여 저장이 가능하다. 맵리듀스 처리를 효율적으로 하기 위해 시퀀스 파일로 생성한다. 분석 및 처리의 빈도수 높지 않는 파일은 압축하여 저장하면, 하둡분산파일시스템의 저장소 양은 확보된다. 압축에 사용되는 압축 알고리즘은 SnappyCodec를 활용 SnappyCodec 맵리듀스 분석 대상 및 결과에 대한 압축을 위해 개발된 압축 방식 하둡에서만 사용 가능 Gzip과 유사한 압축 알고리즘 사용 다른 압축 알고리즘에 비해 상당히 빠른 압축 및 해제 시간을 가짐 블럭 단위 압축을 위해 사용 블럭 단위 압축을 하는 이유 압축 방법은 라인별 압축을 수행하는 ‘레코드단위 방식’일정 레코드를 묶어 ‘블록별 압축하는 블록단위’로 구분된다. 압축 효율성은 블록단위에 비해 레코드단.. 2022. 5. 19. 이전 1 다음 반응형