주성분 분석 : 데이터 압축!
3.1 주성분분석 개요
차원의 저주 : 데이터의 차원 증가 -> 분석에 필요한 데이터 증가 -> 필요한 데이터 충족 못함
-> 적당히분석(데이터 없어서) -> 데이터 없어서 모델 구축이 어려움
주성분분석 : 다차원 데이터의 정보를 가능한 손실 없이 저차원 공간에 압축하는 것
순서 : 1. 데이터 표준화
2. 주성분 축 생성
2-1. 분산이 가장 큰(데이터가 가장 많이 퍼져있는) 방향을 찾아서 첫번째 축(주성분)을 만든다
2-2. 첫번째 축과 90도로 직교하며 분산이 큰 방향으로 구하여 두번째 축으로 만든다. (쭉~~)
3. 구해진 새로운 공간으로 원래 데이터의 좌표를 이동
===================위에 순서를 쉽게한것이 아래=======================
0. 데이터 표준화
1. 상관행렬 구하기
2. 상관행렬의 고윳값, 고유벡터 구하기
3. 고유벡터를 이용하여 표준화된 데이터를 주성분 공간으로 이동
*특징: - 각 주성분의 분산과 고윳값은 일치함
- 좌표변환 전후의 정보량은 같음
- 고윳값은 크기 순으로 정렬됨
- 고윳값은 포함하고 있는 정보량을 보여줌
3.2 주성분분석 활용 (차원축소)
3.2.1 차원 축소
1) 고윳값을 이용해 축소하는 방법 : 고윳값이 1보다 작으면 의미 없는걸로 생각하고 삭제
2)누적 기여율을 이용하는 방법: 누적 기여율을 보고 데이터를 선택
'데이터 분석 > 기초' 카테고리의 다른 글
[데이터 분석 , 수학] 5. 회귀 분석(예측 기법) (0) | 2020.06.02 |
---|---|
[데이터 분석 , 수학] 4. 마할라노비스-다구찌 시스템(분류 기법) (0) | 2020.06.02 |
[데이터 분석 , 수학] 2. 기초 수학 (0) | 2020.05.26 |
[데이터 분석 , 수학] 1. 데이터 분석 (0) | 2020.05.26 |