회귀 분석 : 두 변수 사이의 관계를 통계적 분석을 통해 방정식을 구하는 것
5.1 변수의 종류
X : 원인 | Y : 결과 |
독립변수 | 종속변수 |
설명변수 | 목적변수 |
독립변수 : 종속변수를 움직일 수 있는 변수 (독립변수가 변하면서 종속변수가 어떻게 변하는지..)
5.2 회귀분석의 종류
- 단순회귀 : 독립변수가 하나
- 다중 회귀 : 독립변수가 여러개
=> 독립변수들의 가중치(회귀계수) 하나하나를 구하는 것이 회귀 분석의 목적.
* 데이터 분석을 하기위한 최소한의 데이터 개수는 변수의 개수보다 두개 많아야 함
5.3 선형회귀분석
1) 단순 선형 회귀 : 최소제곱법으로 잔차(실제값과 회귀식으로 예측한 값의 차이)를 최소화 한다.
2) 다중공선성문제 :
독립변수들이 많을수록 회귀식의 성능이 좋아지므로, 최대한 많은 독립변수를 수집한다
-> 이때 생기는 문제 : 다중공선성문제(독립변수 간에 독립성 유지가 안되면 회귀계수가 불안정하게 됨)
-> 해결방법 : 1. 상관관계가 높은 독립변수들 중에서
종속변수(Y)와 가장 상관성이 높은 변수 하나만 남기고 나머지를 삭제하는것
2. 주성분회귀, 부분최소제곱 사용
5.4 주성분회귀분석
주성분분석을 이용해 독립변수를 새로운 좌표축으로 이동-> 압축된 독립변수를 이용 -> 다중회귀로 분석
(상관관계가 높은 변수끼리는 동일한 주성분으로 뭉치는 효과)
5.5 부분최소제곱법 분석
독립변수와 종속변수의 상관관계를 고려해 분산이 최대가 되도록 새로운 변수를 만듦
(종속변수(Y) 포함X : 주성분 회귀 VS 종속변수(Y) 포함 : 부분최소제곱법)
X,Y의 공분산 최대화를 거쳐 새로운 잠재변수로 변환 -> 잠재변수 선정 -> 다중 회귀
5.6 회귀식 평가방법
1) 제곱근평균제곱오차(RMSE, RMS) : 오차를 제곱 -> sum -> 평균 -> 제곱근 (작을 수록 좋다)
2) 결정계수 : 회귀식에 의해 실제 데이터를 어느 정도 설명하는가를 알려줌
SST : 평균에서 각 데이터의 잔차
SSR : 평균과 회귀식에 의해 예측된 값의 잔차
SSE : 실제 값과 회귀직선으로 예측한 값의 잔차
'데이터 분석 > 기초' 카테고리의 다른 글
[데이터 분석 , 수학] 4. 마할라노비스-다구찌 시스템(분류 기법) (0) | 2020.06.02 |
---|---|
[데이터 분석 , 수학] 3. 압축기법(주성분 분석) (0) | 2020.05.30 |
[데이터 분석 , 수학] 2. 기초 수학 (0) | 2020.05.26 |
[데이터 분석 , 수학] 1. 데이터 분석 (0) | 2020.05.26 |