SyntaxHighlighter.all();

;

  • 이 블로그 내의 데이터분석 내용은 데이터 분석을 떠받치는 수학(지음: 손민규 출판: 위키북스) 내용을 요약및 참고한 것입니다. 
  • 제가 이해한 대로 정리한 내용이기에 본문의 내용과 상이할 수 있습니다. 

데이터 분석 : 데이터에서 새로운 의미와 가치를 지닌 정보를 생산하는 일

 

1.1 데이터 분석 프로세스

데이터 분석 프로세스

     1) 문제 정의 : 목적 - 데이터 분석을 통해 최종적으로 얻고 싶은 것이 무엇인지

                                 ex) 떡볶이 회사의 매출 예측

                       목표 - 목적을 구체화 or 수단

                                 ex) 떡볶이 가게의 입지조건으로 일 평균 손님 수 예측

     

      2) 데이터 수집 : 모든 관련 데이터에 대하여 정의하고 조사

                          (지금 당장 필요 없다고 해도 나중에 필요할 수도 있다)

         

데이터의 종류

      3) 데이터 분석 

          - 데이터 전처리 과정 : 결측값, 이상치, 중복값등을 처리해 품질이 좋은 데이터로 통합

                                         (결측값: 빈 데이터, 이상치: 비정상적인 값, 중복값: 중복된 값)

         - 기초 통계 분석 과정 : 데이터의 대푯값(평균, 표준편차), 데이터 간의 상관계수등을 계산하여 데이터 특성 파악

                                         (의미 없는 데이터 제거하여 필요한 변수 선택)

         - 모델 구축 및 평가 과정 : 다양한 데이터 분석 알고리즘 활용하여 모델 만들어냄.

                                             *모델 : 각 알고리즘이 데이터 분석을 진행하면서 생성하는 로직이나 수식

       4) 검증 및 고찰

          - 분석 보고서 : 데이터를 분석해 얻은 새로운 정보와 앞으로의 방향 등..

          - 모델 : 분석 모델을 실무에 적용해 좋은 효과를 기대함

 

 

 

1.2 데이터 분석 알고리즘

     1) 분석 알고리즘

             - 통계적 방법 : 어떤 규칙이 있는지 분석하고 그 규칙을 알고리즘화하여 활용

             - 인공지능 방법 : 대용량 데이터에서의 규칙을 알고리즘이 찾아내게 만드는 방법

                                    여기서의 알고리즘은 두 가지로 나뉜다.

                                         - 화이트 박스 알고리즘 : 사람이 해석할수 있는 알고리즘 (ex) 결정 트리)

                                         - 블랙 박스 알고리즘 : 사람이 해석할 수 없는 알고리즘 (ex) 신경망..) 

       2) 변수의 종류

             - 종속 변수 : 결과를 나타내는 변수(Y)

             - 독립 변수 : 종속변수의 원인에 해당하는 변수(X)

 

        3) 변수와 알고리즘

목적    종속변수 독립변수 주요알고리즘
예측 종속 변수 예측 O O 선형 회귀분석
압축 차원 축소 X O 주성분분석
분류 닮은 데이터의 그룹화 O/X O 마할라노비스-다구치시스템 (교사학습)

       - 예측 알고리즘 : 종속변수와 독립변수 사이의 인과관계를 이용해 모델을 만들어 종석변수의 값 예측

       - 압축 알고리즘 : 데이터의 차원을 축소하기 위해 사용되는 알고리즘, 독립변수들 간의 관계 분석하여 정보를 압축

       - 분류 알고리즘 : 분류와 군집화로 나뉨

                                분류 : 종속변수를 기준으로 독립변수의 특징을 학습시켜 분류를 하는 알고리즘

                                군집화(종속변수X) : 독립변수의 속성을 파악해 비슷한 속성을 가진 데이터끼리 묶는 알고리즘 

+ Recent posts