SyntaxHighlighter.all();

주성분 분석 : 데이터 압축!

 

3.1 주성분분석 개요

차원의 저주 : 데이터의 차원 증가 -> 분석에 필요한 데이터 증가 -> 필요한 데이터 충족 못함

                   -> 적당히분석(데이터 없어서) -> 데이터 없어서 모델 구축이 어려움

주성분분석 : 다차원 데이터의 정보를 가능한 손실 없이 저차원 공간에 압축하는 것

                 순서 : 1. 데이터 표준화

                          2. 주성분 축 생성 

                                 2-1. 분산이 가장 큰(데이터가 가장 많이 퍼져있는) 방향을 찾아서 첫번째 축(주성분)을 만든다

                                 2-2.  첫번째 축과 90도로 직교하며 분산이 큰 방향으로 구하여 두번째 축으로 만든다. (쭉~~)

                         3. 구해진 새로운 공간으로 원래 데이터의 좌표를 이동                               

                           ===================위에 순서를 쉽게한것이 아래=======================

                        0. 데이터 표준화

                        1. 상관행렬 구하기

                        2. 상관행렬의 고윳값, 고유벡터 구하기

                        3. 고유벡터를 이용하여 표준화된 데이터를 주성분 공간으로 이동

 

*특징:  - 각 주성분의 분산과 고윳값은 일치함

         - 좌표변환 전후의 정보량은 같음

         - 고윳값은 크기 순으로 정렬됨

         - 고윳값은 포함하고 있는 정보량을 보여줌

 

 

3.2 주성분분석 활용 (차원축소)

3.2.1 차원 축소

    1) 고윳값을 이용해 축소하는 방법 : 고윳값이 1보다 작으면 의미 없는걸로 생각하고 삭제

    2)누적 기여율을 이용하는 방법: 누적 기여율을 보고 데이터를 선택

 

+ Recent posts