- 이 블로그 내의 하둡 내용은 하둡 완벽 가이드(지음: 톰 화이트, 옮김: 장형석 외 3명 출판: 한빛미디어) 내용을 요약및 참고한 것입니다.
- 제가 이해한 대로 정리한 내용이기에 본문의 내용과 상이할 수 있습니다.
1. 하둡이란?
- 하둡 에코시스템 : 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설
전통적인 RDBMS | 맵리듀스 | |
데이터 크기 | GB | TB |
접근 방식 | 대화형과 일괄처리방식 | 일괄 처리 방식 |
변경 | 여러 번 읽고 쓰기 | 한 번 쓰고 여러 번 읽기 |
트랜잭션 | ACID | 없음 |
구조 | 쓰기 기준 스키마 | 읽기 기준 스키마 |
무결성 | 높음 | 낮음 |
확장성 | 비선형 | 선형 |
<RDBMS와 맵리듀스>
2. 하둡과 RDBMS
- 하둡과 RDBMS의 차이점 : 데이터셋 내부에서 처리되는 구조의 양
- 하둡은 읽기시점 스키마! : 처리시점에 데이터를 해석하도록 설계되어 있기 때문에 유연함
(하둡은 단순히 파일만 복사하면 됨)
3. 하둡과 그리드컴퓨팅
- 그리드컴퓨팅 : 연결된 서로 다른 기종의 컴퓨터들을 하나로 묶어 가상의 대용량 고성능 컴퓨터를 구성하여
고도의 연산 작업 or 대용량 처리를 수행하는 것
- 그리드 컴퓨팅은 네트워크 대역폭때문에 느림
-> 하둡은 계산노드에 데이터를 합께 배치! (데이터가 로컬에 있기 때문에 빠름)
-> 데이터 지역성 (맵리듀스는 매우 높은 네트워크 대역폭을 가진 단일 데이터 센터에 있는
신뢰성 높은 전용 하드웨어에서 수분, 수 시산 내에 job을 실행할 수 있도록 설계됨)
- 하둡은 내부적인 데이터 흐름에 신경쓰지 않아도 되고
분산 처리 프레임워크(맵리듀스..)는 실패한 태스크를 자동으로 감지하여
장애가 없는 머신에 재배치하도록 구현되어 있기 때문에 개발자는 신경안써도됨
-> 비공유 아키텍처(맵리듀스는 태스크 간의 상호 의존성이 없음)
'빅데이터 > 하둡' 카테고리의 다른 글
[하둡] 7. YARN- 맵리듀스 1과의 차이 (0) | 2020.07.01 |
---|---|
[하둡] 6. YARN (0) | 2020.06.29 |
[하둡] 5. HDFS (하둡 분산 파일시스템) - 데이터 흐름 (1) | 2020.06.19 |
[하둡] 3. HDFS (하둡 분산 파일시스템) - 설계 및 개념 (0) | 2020.06.19 |
[하둡] 2. 맵리듀스 (1) | 2020.06.18 |