SyntaxHighlighter.all();

  • 이 블로그 내의 하둡 내용은 하둡 완벽 가이드(지음: 톰 화이트, 옮김: 장형석 외 3명 출판: 한빛미디어) 내용을 요약및 참고한 것입니다. 
  • 제가 이해한 대로 정리한 내용이기에 본문의 내용과 상이할 수 있습니다. 

1. 하둡이란?

- 하둡 에코시스템 : 분산 컴퓨팅과 대규모 데이터 처리를 위한 기반 시설

 

  전통적인 RDBMS 맵리듀스
데이터 크기 GB TB
접근 방식 대화형과 일괄처리방식 일괄 처리 방식
변경 여러 번 읽고 쓰기 한 번 쓰고 여러 번 읽기
트랜잭션 ACID 없음
구조 쓰기 기준 스키마 읽기 기준 스키마
무결성 높음 낮음
확장성 비선형 선형

<RDBMS와 맵리듀스>

2. 하둡과 RDBMS

    - 하둡과 RDBMS의 차이점 : 데이터셋 내부에서 처리되는 구조의 양

    - 하둡은 읽기시점 스키마!  : 처리시점에 데이터를 해석하도록 설계되어 있기 때문에 유연함

                                       (하둡은 단순히 파일만 복사하면 됨)

   

3. 하둡과 그리드컴퓨팅

    - 그리드컴퓨팅 : 연결된 서로 다른 기종의 컴퓨터들을 하나로 묶어 가상의 대용량 고성능 컴퓨터를 구성하여

                        고도의 연산 작업 or 대용량 처리를 수행하는 것

   - 그리드 컴퓨팅은 네트워크 대역폭때문에 느림 

          -> 하둡은 계산노드에 데이터를 합께 배치! (데이터가 로컬에 있기 때문에 빠름)

          -> 데이터 지역성 (맵리듀스는 매우 높은 네트워크 대역폭을 가진 단일 데이터 센터에 있는
                                  신
뢰성 높은 전용 하드웨어에서 수분, 수 시산 내에 job을 실행할 수 있도록 설계됨)

   - 하둡은 내부적인 데이터 흐름에 신경쓰지 않아도 되고

      분산 처리 프레임워크(맵리듀스..)는 실패한 태스크를 자동으로 감지하여

      장애가 없는 머신에 재배치하도록 구현되어 있기 때문에 개발자는 신경안써도됨

        -> 비공유 아키텍처(맵리듀스는 태스크 간의 상호 의존성이 없음)

+ Recent posts