반응형
Mapper는 많은 양의 데이터를 자주 생성한다.
Mapper에서 생성된 데이터는 반드시 Reduce를 거쳐 처리되는데 Mapper에서 생성되는 데이터가 많을 수록 네트워크 부하는 증가된다. 이때, 네트워크 부하를 줄여 처리 성능을 향상시키기 위해서 컴바이너를 사용한다.
컴바이너는 보통 미니 리듀서(mini-Reducer)라고 보면 된다. Mapper 결과를 그룹화하여 다시 처리하는데 컴바이너로부터 나온 결과를 Reduce에서 전달한다.
Combiner는 Reducer와 동일하게 사용한다.
Key와 List 형태의 값을 가지고 출력 결과는 Key와 value의 쌍으로 구성된다. 보통 Reducer의 메소드를 활용하여 사용한다.
하지만, 컴바이너는 모든 맵리듀스 구성에 사용 가능한 것은 아니다. 합계와 같은 SUM 로직에는 효율적인데 평균을 구하는 로직 같은 경우엔 절대 사용하면 안 된다.
반응형
'Data Base > Hadoop' 카테고리의 다른 글
[Hadoop] : SequenceFile 프로그래밍 (0) | 2022.05.17 |
---|---|
[Hadoop] : Map 프로그래밍 (0) | 2022.05.17 |
[Hadoop] : URL 전송 결과가 성공인 요청 분석하기 (0) | 2022.05.03 |
[Hadoop] : 맵리듀스 제어 함수, setup, cleanup (0) | 2022.05.03 |
[Hadoop] : ToolRunner 사용하기 (0) | 2022.05.03 |
댓글