SyntaxHighlighter.all();

회귀 분석 : 두 변수 사이의 관계를 통계적 분석을 통해 방정식을 구하는 것

 

5.1 변수의 종류

X : 원인 Y : 결과
독립변수 종속변수
설명변수 목적변수

독립변수 : 종속변수를 움직일 수 있는 변수 (독립변수가 변하면서 종속변수가 어떻게 변하는지..)

 

5.2 회귀분석의 종류

- 단순회귀 : 독립변수가 하나

- 다중 회귀 : 독립변수가 여러개

=> 독립변수들의 가중치(회귀계수) 하나하나를 구하는 것이 회귀 분석의 목적.

 

* 데이터 분석을 하기위한 최소한의 데이터 개수는 변수의 개수보다 두개 많아야 함

 

 

5.3 선형회귀분석

     1) 단순 선형 회귀 : 최소제곱법으로 잔차(실제값과 회귀식으로 예측한 값의 차이)를 최소화 한다.

     2) 다중공선성문제 : 

             독립변수들이 많을수록 회귀식의 성능이 좋아지므로, 최대한 많은 독립변수를 수집한다

                    -> 이때 생기는 문제 : 다중공선성문제(독립변수 간에 독립성 유지가 안되면 회귀계수가 불안정하게 됨)

                    -> 해결방법 :  1. 상관관계가 높은 독립변수들 중에서

                                          종속변수(Y)와 가장 상관성이 높은 변수 하나만 남기고 나머지를 삭제하는것

                                        2.  주성분회귀, 부분최소제곱 사용

 

5.4 주성분회귀분석

  주성분분석을 이용해 독립변수를 새로운 좌표축으로 이동-> 압축된 독립변수를 이용 -> 다중회귀로 분석

  (상관관계가 높은 변수끼리는 동일한 주성분으로 뭉치는 효과)

 

 

5.5 부분최소제곱법 분석

독립변수와 종속변수의 상관관계를 고려해 분산이 최대가 되도록 새로운 변수를 만듦

(종속변수(Y) 포함X : 주성분 회귀  VS  종속변수(Y) 포함 : 부분최소제곱법) 

X,Y의 공분산 최대화를 거쳐 새로운 잠재변수로 변환  -> 잠재변수 선정 -> 다중 회귀

 

 

5.6 회귀식 평가방법

    1) 제곱근평균제곱오차(RMSE, RMS) : 오차를 제곱 -> sum -> 평균 -> 제곱근 (작을 수록 좋다)

    2) 결정계수 : 회귀식에 의해 실제 데이터를 어느 정도 설명하는가를 알려줌

출처 : https://m.blog.naver.com/PostView.nhn?blogId=lchry&logNo=220511983820&proxyReferer=https:%2F%2Fwww.google.com%2F

 SST : 평균에서 각 데이터의 잔차

SSR : 평균과 회귀식에 의해 예측된 값의 잔차

SSE : 실제 값과 회귀직선으로 예측한 값의 잔차

 

 

분류 알고리즘: 데이터를 특정 목적에 맞게 분류하는 알고리즘

 

4.1 분류알고리즘의 종류

이진분류 : 두 가지 중에 하나를 학습해야 하는 것

다중클래스 분류 : 여러 가지 클래스를 학습해야 하는 것    - 신경망, 결정트리      ex) 개, 고양이, 토끼..

 

4.2 마할라노비스 거리

두 점 사이의 거리 계산 방법 (유클리드 거리, 마할라노비스 거리)

=> 마할라노비스 거리 : 데이터가 가지고 있는 확률분포, 상관관계를 고려한 거리재기

 

4.3 마할라노비스-다구찌(MTS)

일본의 공학자가 4.2 알고리즘을 약간 수정하여 도입한 기법

 

1) 마할라노비스 다구찌의 원리

정상 집단에 대하여 다차원의 단위공간으로 마할라노비스 공간을 정의하고

임의의 대상이 그 공간으로부터 얼마나 떨어져 있는가를 거리로 산정

-> 거리가 멀어질수록 정상에서 멀리 떨어진 것으로 진단

 

2) 모델 구축 순서

                 순서 : 1. 기준데이터 결정

                                 1-1. 초기 데이터로부터 이상치 제거

                          2. 기준 데이터를 이용하여 정상 모델 작성

                                 2-1. 데이터 표준화

                                 2-2. 상관행렬 구하기

                                 2-3. 상관행렬에 대한 고윳값, 고유벡터 구하기

                                 2-4. 고유벡터를 표준화

                                 2-5. 표준화된 고유벡터를 이용하여 표준화된 데이터의 좌표 이동

                         3. 기준 데이터를 이용하여 검출 기준 결정                               

                           ===================모델활용=======================

                        1. 구축된 모델을 이용하여 실제 데이터의 MD^2 계산

                        2. 정상/비정상 판단

 

출처 : 마할라노비스-다구치 시스템과 로지스틱 회귀의 성능비교 : 사례연구 (이승훈, 임근)

주성분 분석 : 데이터 압축!

 

3.1 주성분분석 개요

차원의 저주 : 데이터의 차원 증가 -> 분석에 필요한 데이터 증가 -> 필요한 데이터 충족 못함

                   -> 적당히분석(데이터 없어서) -> 데이터 없어서 모델 구축이 어려움

주성분분석 : 다차원 데이터의 정보를 가능한 손실 없이 저차원 공간에 압축하는 것

                 순서 : 1. 데이터 표준화

                          2. 주성분 축 생성 

                                 2-1. 분산이 가장 큰(데이터가 가장 많이 퍼져있는) 방향을 찾아서 첫번째 축(주성분)을 만든다

                                 2-2.  첫번째 축과 90도로 직교하며 분산이 큰 방향으로 구하여 두번째 축으로 만든다. (쭉~~)

                         3. 구해진 새로운 공간으로 원래 데이터의 좌표를 이동                               

                           ===================위에 순서를 쉽게한것이 아래=======================

                        0. 데이터 표준화

                        1. 상관행렬 구하기

                        2. 상관행렬의 고윳값, 고유벡터 구하기

                        3. 고유벡터를 이용하여 표준화된 데이터를 주성분 공간으로 이동

 

*특징:  - 각 주성분의 분산과 고윳값은 일치함

         - 좌표변환 전후의 정보량은 같음

         - 고윳값은 크기 순으로 정렬됨

         - 고윳값은 포함하고 있는 정보량을 보여줌

 

 

3.2 주성분분석 활용 (차원축소)

3.2.1 차원 축소

    1) 고윳값을 이용해 축소하는 방법 : 고윳값이 1보다 작으면 의미 없는걸로 생각하고 삭제

    2)누적 기여율을 이용하는 방법: 누적 기여율을 보고 데이터를 선택

 

2.1 기초 통계량

   - 평균 : 총 합/총 개수

   - 중앙값 : 데이터 크기 순으로 정렬했을 때 가운데 위치하는 값

   - 최빈값 : 데이터에서 가장 많이 나온 값

   - 최댓값/최솟값 : 가장 큰 값 / 가장 작은 값

   - 범위 : 최댓값과 최솟값의 차이 (항상 0보다 큰값)

 

2.2 분산과 표준편차

데이터가 평균을 기준으로 어느 정도 흐트러져 있는지를 알려줌 (클 수록 데이터가 평균으로부터 멀리 퍼져있다)

   - 표준오차 : 데이터와 평균과의 차이 

                   (데이터의 흐트러짐을 더 잘 표현하기 위해서는 표준오차에 제곱을 사용, 절대값 사용도 있음)

 

   - 분산(∝^2) : 표준오차/ 데이터의 개수

   - 표준편차() : 표준오차에서 제곱해준걸 루트로 풀어준다. (분산값에서 루트 씌어줌)

                   분모가 n인지 n-1인지를 보고서 모집단(n)이지, 표본집단(n-1)인지 알수 있음

 

   1) 모집단과 표본집단

       - 모집단 : 집단 전체 데이터       ex) 한국 평균 연봉 - 한국 전체 회사원

       - 표본집단 : 전체 데이터에서 따로 추출된 데이터(부분집합)     ex) 한국 평균 연봉 - 100000명의 회사원

 

   2) 정규분포와 표준편차

정규분포곡선과 표준편차의 관계 첨부

       - 3시그마 규칙 : ±3∝ 밖에 데이터가 존재할 확률은 0.3%이다.

 

2.3 데이터 표준화

데이터를 비교하기 위해서는 기준이 같아야 한다.

데이터 표준화(z) = (각데이터 - 데이터의 평균)/표준편차()

 

2.4 공분산과 상관계수

두 개의 데이터 간의 관계를 알아볼 수 있음

1) 공분산 : 두 개의 데이터가 비례인지? 반비례인지? 알 수 있음

            식

              S(xy) = (x값의 표준오차)(y값의 표준오차)/n-1

              -> (x값의 표준오차)(y값의 표준오차)가 양수 : 비례

              -> (x값의 표준오차)(y값의 표준오차)가 음수 : 반비례

       

2) 상관계수 : 두 개의 데이터가 어느 정도의 관계인지

           식

              R(xy) = S(xy)/(S(x)*S(y))  (-1<=R(xy)<=1)

                     = (x, y의 공분산)/ ((x의 공분산)*(y의 공분산))

              -> 상관관계가 양수면(양의 상관관계) : 비례

              -> 상관관계가 음수면(음의 상관관계) : 반비례

 

2.5 행렬

- 1차원 배열 : 벡터

- 2차원 배열 : 행렬

1) 행렬의 종류

     - 정방행렬 : 행과 열의 개수가 같은 행렬

     - 영행렬 : 모든 요소가 0인 행렬

     - 대각행렬 : 대각성분을 제외한 나머지가 모든 0인 행렬

     - 단위행렬 : 대각행렬+ 대각성분이 모두 1인 행렬

     - 삼각행렬 : 대각선 아래 or 위 요소가 모두 0인 행렬

     - 전치행렬 :  행렬의 행과 열을 바꾼 행렬

 

2) 행렬의 법칙

     - 교환법칙 : AB ≠ BA

     - 결합법칙 : (AB)C=A(BC)

     - 분배법칙 : A(B+C)=AB+AC

 

* 심화 *

- 표준화된 데이터의 분산 식 = Z'*Z/(n-1)

 

3) 공분산 행렬과 상관행렬

 - 상관행렬 식 = Z'*Z/(n-1)      ->분산을 구하는 행렬과 같지만 분산은 Z가 벡터이고 상관행렬은 Z가 행렬이다 

4) 역행렬

- AB=BA = I (B=A^ -1)

5) 좌표변환 행렬

x축대칭:  1  0             y축대칭 :  -1    0              원점 대칭 :      -1    0               회전:    cos  -sin

             0 -1                           0    1                                   0    -1                         sin   cos (시계방향 양수)

 

2.6 미분과 편미분

미분 : 어떤 점에서의 기울기

편미분 : 어떤 함수가 여러 가지 변수를 가지고 있을 때 각 변수에 대해서 미분을 하는 방식

;

  • 이 블로그 내의 데이터분석 내용은 데이터 분석을 떠받치는 수학(지음: 손민규 출판: 위키북스) 내용을 요약및 참고한 것입니다. 
  • 제가 이해한 대로 정리한 내용이기에 본문의 내용과 상이할 수 있습니다. 

데이터 분석 : 데이터에서 새로운 의미와 가치를 지닌 정보를 생산하는 일

 

1.1 데이터 분석 프로세스

데이터 분석 프로세스

     1) 문제 정의 : 목적 - 데이터 분석을 통해 최종적으로 얻고 싶은 것이 무엇인지

                                 ex) 떡볶이 회사의 매출 예측

                       목표 - 목적을 구체화 or 수단

                                 ex) 떡볶이 가게의 입지조건으로 일 평균 손님 수 예측

     

      2) 데이터 수집 : 모든 관련 데이터에 대하여 정의하고 조사

                          (지금 당장 필요 없다고 해도 나중에 필요할 수도 있다)

         

데이터의 종류

      3) 데이터 분석 

          - 데이터 전처리 과정 : 결측값, 이상치, 중복값등을 처리해 품질이 좋은 데이터로 통합

                                         (결측값: 빈 데이터, 이상치: 비정상적인 값, 중복값: 중복된 값)

         - 기초 통계 분석 과정 : 데이터의 대푯값(평균, 표준편차), 데이터 간의 상관계수등을 계산하여 데이터 특성 파악

                                         (의미 없는 데이터 제거하여 필요한 변수 선택)

         - 모델 구축 및 평가 과정 : 다양한 데이터 분석 알고리즘 활용하여 모델 만들어냄.

                                             *모델 : 각 알고리즘이 데이터 분석을 진행하면서 생성하는 로직이나 수식

       4) 검증 및 고찰

          - 분석 보고서 : 데이터를 분석해 얻은 새로운 정보와 앞으로의 방향 등..

          - 모델 : 분석 모델을 실무에 적용해 좋은 효과를 기대함

 

 

 

1.2 데이터 분석 알고리즘

     1) 분석 알고리즘

             - 통계적 방법 : 어떤 규칙이 있는지 분석하고 그 규칙을 알고리즘화하여 활용

             - 인공지능 방법 : 대용량 데이터에서의 규칙을 알고리즘이 찾아내게 만드는 방법

                                    여기서의 알고리즘은 두 가지로 나뉜다.

                                         - 화이트 박스 알고리즘 : 사람이 해석할수 있는 알고리즘 (ex) 결정 트리)

                                         - 블랙 박스 알고리즘 : 사람이 해석할 수 없는 알고리즘 (ex) 신경망..) 

       2) 변수의 종류

             - 종속 변수 : 결과를 나타내는 변수(Y)

             - 독립 변수 : 종속변수의 원인에 해당하는 변수(X)

 

        3) 변수와 알고리즘

목적    종속변수 독립변수 주요알고리즘
예측 종속 변수 예측 O O 선형 회귀분석
압축 차원 축소 X O 주성분분석
분류 닮은 데이터의 그룹화 O/X O 마할라노비스-다구치시스템 (교사학습)

       - 예측 알고리즘 : 종속변수와 독립변수 사이의 인과관계를 이용해 모델을 만들어 종석변수의 값 예측

       - 압축 알고리즘 : 데이터의 차원을 축소하기 위해 사용되는 알고리즘, 독립변수들 간의 관계 분석하여 정보를 압축

       - 분류 알고리즘 : 분류와 군집화로 나뉨

                                분류 : 종속변수를 기준으로 독립변수의 특징을 학습시켜 분류를 하는 알고리즘

                                군집화(종속변수X) : 독립변수의 속성을 파악해 비슷한 속성을 가진 데이터끼리 묶는 알고리즘 

+ Recent posts