[Hadoop] 하둡 - 맵리듀스의(MapReduce) 기초 #1
하둡은 데이터를 맵핑하여 원하는 형태로 만들고 맵핑된 데이터를 정렬하여 원하는 결과로 reduce 시킵니다.앞서서는 하둡에서 사용하는 file system인 HDFS를 설명했다면, 실제로 하둡 프로그래밍을 하기 위해서 필요한 맵리듀스에 대해서 얘기합니다.맵리듀스는 병렬로 분산처리를 지원해주는 Framework 입니다.사용자는 처리해야할 로직을 잘 구현해 놓고 맵리듀스에 던져주면 알아서 병렬처리를 하여 결과값을 반환해 줍니다. 이글은 "시작하세요! 하둡 프로그래밍"을 참고하였습니다. 대부분의 내용이 생략되고 정리된 내용이므로 자세한 내용은 꼭 책을 구입하여 확인하시기 바랍니다. 맵리듀스의 구성1. JobTracker잡트래커는 전체 하둡 클러스터에 하나만 존재하며 주어진 job의 스케쥴링 및 모니터링을 담당..