본문 바로가기
반응형

맵리듀스8

[Hadoop] : Combiner, 컴바이너 Mapper는 많은 양의 데이터를 자주 생성한다. Mapper에서 생성된 데이터는 반드시 Reduce를 거쳐 처리되는데 Mapper에서 생성되는 데이터가 많을 수록 네트워크 부하는 증가된다. 이때, 네트워크 부하를 줄여 처리 성능을 향상시키기 위해서 컴바이너를 사용한다. 컴바이너는 보통 미니 리듀서(mini-Reducer)라고 보면 된다. Mapper 결과를 그룹화하여 다시 처리하는데 컴바이너로부터 나온 결과를 Reduce에서 전달한다. Combiner는 Reducer와 동일하게 사용한다. Key와 List 형태의 값을 가지고 출력 결과는 Key와 value의 쌍으로 구성된다. 보통 Reducer의 메소드를 활용하여 사용한다. 하지만, 컴바이너는 모든 맵리듀스 구성에 사용 가능한 것은 아니다. 합계와 같.. 2022. 5. 10.
[TIL] : 194 일일 배움을 위한 Today I Learned ! 알고리즘 알고리즘 나동빈 유튜버 강의를 보고 있다. 그리디부터 천천히 알려줘서 좋다. 조금 더 공부해 보고 책을 추가로 구매할지 생각해 봐야겠다. 하둡 ResultCount2를 완성하고 있다. 오늘은 드라이버 부분을 코딩했다. 깃허브에서 확인할 수 있다. 2022. 5. 8.
[Hadoop] : 맵리듀스 제어 함수, setup, cleanup setup 함수 환경 설정 값을 Mapper와 Reducer에 설정하기 위한 함수 작업이 시작되기 전에 실행 Mapper or Reducer에 setup 함수 오버라이딩 일반적으로 Mapper에 많이 사용 cleanup 함수 사용 설정된 환경 설정 값을 초기화하기 위해 사용 Mapper or Reducer에 setup 함수 오버라이딩 작업이 완료된 후 실행 함수 실행 후 사용된 메모리에 환경 설정 값들이 삭제되기 때문에 실제로 사용하지는 않는다. 2022. 5. 3.
[TIL] : 184 일일 배움을 위한 Today I Learned ! Hadoop 하둡으로 간단한 프로젝트를 진행했다. 2022.04.28 - [Data Base/Hadoop] - [Hadoop] : 맵리듀스 버전 별 차이 2022.04.28 - [Data Base/Hadoop] - [Hadoop] : 하둡, 맵리듀스 프로젝트, 3글자 이상인 단어만 빈도 수 분석해보기 2022.04.28 - [Data Base/Hadoop] - [Hadoop] : 하둡, 맵리듀스 프로젝트 IP 별 호출 빈도 수 분석하기 소경관 csv 파일 처리에 대해 고민하고 있다. 정보처리기사 시험이 얼마 남지 않아 책으로 공부하고 있다. 2022. 4. 28.
[TIL] : 182 일일 배움을 위한 Today I Learned ! Hadoop 하둡의 맵리듀스를 사용해서 글자를 카운팅하는 작은 프로젝트를 만들어봤다. 2022.04.26 - [Data Base/Hadoop] - [Hadoop] : 맵리듀스 기본 개념, 특징, 주요 처리 과정과 프로젝트 설명 2022.04.26 - [Data Base/Hadoop] - [Hadoop] : 맵리듀스를 활용해서 단어별 빈도수 분석, 단어 세기 2022. 4. 26.
[Hadoop] : 맵리듀스를 활용해서 단어별 빈도수 분석, 단어 세기 아래 링크에서 확인이 가능하다. https://ohju96.notion.site/1d16c6f74f7246e28aabe7c23a82681d 맵리듀스 실습 단어별 빈도수 분석 (단어 세기) ohju96.notion.site 2022. 4. 26.
[Hadoop] : 맵리듀스 기본 개념, 특징, 주요 처리 과정과 프로젝트 설명 맵리듀스 기본 개념 하둡 핵심 코어 기술 중 하나이다. 분산된 다양한 노드들의 작업을 통해 처리하는 기술이다. 각 노드에 분산되어 있는 데이터를 하나의 노드에 저장된 것 같이 처리할 수 있다. 맵리듀스는 Map과 Reduce로 구성되어있다. 맵리듀스 특징 자동으로 분산 및 병렬 처리 수행 장애 허용(Fault Tolerance) 개발자에 적합한 처리 기술 맵리듀스는 Java로 개발되었다. 맵리듀스 프로그래밍도 Java로 개발한다. 맵리듀스 주요 처리 과정 Map 싱글 HDFS 블록들에 대해 각 Map 작업이 수행된다. Map 작업들은 대체로 블록이 저장된 노드에서 실행된다. Shuffle and Sort 모든 Mapper에서 Shuffle and Sort 작업이 실행된다. 모든 Map 작업들이 종료될 때.. 2022. 4. 26.
10 . SQLD 시험 취소와 최근 공부하고 있는 것 SQLD 시험을 신청했었는데 공모전 두 개가 서류 작업이 생겨서.. 부랴부랴 작업하느라 시험 공부를 너무 못 해서 시험을 취소 했습니다.. 가능하면 경험이다라고 생각하고 보려고 했으나.. 전혀 책을 보질 못 했기 때문에 25000원만 환불 받고 시험을 포기했네요. 요즘은 개강을 해서 스프링, 파이썬, AWS와 데이터 모델링, 하둡, 맵리듀스 등 빅데이터 관련 공부를 (준비)하고 있습니다. 따로 공부한건 Notion에 기록하고 있는데 이걸 이제 정리해서 블로그로 가져오는 작업을 해야 하는데 양이 너무 많고 분류를 어떻게 나누는 게 좋을지 잘 모르겠네요. 노션에서 컨트롤C, V로 끌어올 수 있으면 좋았을텐데.. 그것도 안 되고 조만간 방법을 찾아서 블로그에 복습하는 것을 고려해 보겠습니다. 2021. 8. 30.
반응형