[하둡] 1. 하둡

2020. 5. 25. 20:30

1. 하둡이란?

- 하둡 에코시스템 : 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설

<RDBMS와 맵리듀스>

2. 하둡과 RDBMS

- 하둡과 RDBMS의 차이점 : 데이터셋 내부에서 처리되는 구조의 양

- 하둡은 읽기시점 스키마! : 처리시점에 데이터를 해석하도록 설계되어 있기 때문에 유연함

(하둡은 단순히 파일만 복사하면 됨)

3. 하둡과 그리드컴퓨팅

- 그리드컴퓨팅 : 연결된 서로 다른 기종의 컴퓨터들을 하나로 묶어 가상의 대용량 고성능 컴퓨터를 구성하여

고도의 연산 작업 or 대용량 처리를 수행하는 것

- 그리드 컴퓨팅은 네트워크 대역폭때문에 느림

-> 하둡은 계산노드에 데이터를 합께 배치! (데이터가 로컬에 있기 때문에 빠름)

-> 데이터 지역성 (맵리듀스는 매우 높은 네트워크 대역폭을 가진 단일 데이터 센터에 있는
신뢰성 높은 전용 하드웨어에서 수분, 수 시산 내에 job을 실행할 수 있도록 설계됨)

- 하둡은 내부적인 데이터 흐름에 신경쓰지 않아도 되고

분산 처리 프레임워크(맵리듀스..)는 실패한 태스크를 자동으로 감지하여

장애가 없는 머신에 재배치하도록 구현되어 있기 때문에 개발자는 신경안써도됨

-> 비공유 아키텍처(맵리듀스는 태스크 간의 상호 의존성이 없음)

Hello 은화!