SyntaxHighlighter.all();

회귀 분석 : 두 변수 사이의 관계를 통계적 분석을 통해 방정식을 구하는 것

 

5.1 변수의 종류

X : 원인 Y : 결과
독립변수 종속변수
설명변수 목적변수

독립변수 : 종속변수를 움직일 수 있는 변수 (독립변수가 변하면서 종속변수가 어떻게 변하는지..)

 

5.2 회귀분석의 종류

- 단순회귀 : 독립변수가 하나

- 다중 회귀 : 독립변수가 여러개

=> 독립변수들의 가중치(회귀계수) 하나하나를 구하는 것이 회귀 분석의 목적.

 

* 데이터 분석을 하기위한 최소한의 데이터 개수는 변수의 개수보다 두개 많아야 함

 

 

5.3 선형회귀분석

     1) 단순 선형 회귀 : 최소제곱법으로 잔차(실제값과 회귀식으로 예측한 값의 차이)를 최소화 한다.

     2) 다중공선성문제 : 

             독립변수들이 많을수록 회귀식의 성능이 좋아지므로, 최대한 많은 독립변수를 수집한다

                    -> 이때 생기는 문제 : 다중공선성문제(독립변수 간에 독립성 유지가 안되면 회귀계수가 불안정하게 됨)

                    -> 해결방법 :  1. 상관관계가 높은 독립변수들 중에서

                                          종속변수(Y)와 가장 상관성이 높은 변수 하나만 남기고 나머지를 삭제하는것

                                        2.  주성분회귀, 부분최소제곱 사용

 

5.4 주성분회귀분석

  주성분분석을 이용해 독립변수를 새로운 좌표축으로 이동-> 압축된 독립변수를 이용 -> 다중회귀로 분석

  (상관관계가 높은 변수끼리는 동일한 주성분으로 뭉치는 효과)

 

 

5.5 부분최소제곱법 분석

독립변수와 종속변수의 상관관계를 고려해 분산이 최대가 되도록 새로운 변수를 만듦

(종속변수(Y) 포함X : 주성분 회귀  VS  종속변수(Y) 포함 : 부분최소제곱법) 

X,Y의 공분산 최대화를 거쳐 새로운 잠재변수로 변환  -> 잠재변수 선정 -> 다중 회귀

 

 

5.6 회귀식 평가방법

    1) 제곱근평균제곱오차(RMSE, RMS) : 오차를 제곱 -> sum -> 평균 -> 제곱근 (작을 수록 좋다)

    2) 결정계수 : 회귀식에 의해 실제 데이터를 어느 정도 설명하는가를 알려줌

출처 : https://m.blog.naver.com/PostView.nhn?blogId=lchry&logNo=220511983820&proxyReferer=https:%2F%2Fwww.google.com%2F

 SST : 평균에서 각 데이터의 잔차

SSR : 평균과 회귀식에 의해 예측된 값의 잔차

SSE : 실제 값과 회귀직선으로 예측한 값의 잔차

 

 

+ Recent posts