- 이 블로그 내의 데이터분석 내용은 데이터 분석을 떠받치는 수학(지음: 손민규 출판: 위키북스) 내용을 요약및 참고한 것입니다.
- 제가 이해한 대로 정리한 내용이기에 본문의 내용과 상이할 수 있습니다.
데이터 분석 : 데이터에서 새로운 의미와 가치를 지닌 정보를 생산하는 일
1.1 데이터 분석 프로세스
1) 문제 정의 : 목적 - 데이터 분석을 통해 최종적으로 얻고 싶은 것이 무엇인지
ex) 떡볶이 회사의 매출 예측
목표 - 목적을 구체화 or 수단
ex) 떡볶이 가게의 입지조건으로 일 평균 손님 수 예측
2) 데이터 수집 : 모든 관련 데이터에 대하여 정의하고 조사
(지금 당장 필요 없다고 해도 나중에 필요할 수도 있다)
3) 데이터 분석
- 데이터 전처리 과정 : 결측값, 이상치, 중복값등을 처리해 품질이 좋은 데이터로 통합
(결측값: 빈 데이터, 이상치: 비정상적인 값, 중복값: 중복된 값)
- 기초 통계 분석 과정 : 데이터의 대푯값(평균, 표준편차), 데이터 간의 상관계수등을 계산하여 데이터 특성 파악
(의미 없는 데이터 제거하여 필요한 변수 선택)
- 모델 구축 및 평가 과정 : 다양한 데이터 분석 알고리즘 활용하여 모델 만들어냄.
*모델 : 각 알고리즘이 데이터 분석을 진행하면서 생성하는 로직이나 수식
4) 검증 및 고찰
- 분석 보고서 : 데이터를 분석해 얻은 새로운 정보와 앞으로의 방향 등..
- 모델 : 분석 모델을 실무에 적용해 좋은 효과를 기대함
1.2 데이터 분석 알고리즘
1) 분석 알고리즘
- 통계적 방법 : 어떤 규칙이 있는지 분석하고 그 규칙을 알고리즘화하여 활용
- 인공지능 방법 : 대용량 데이터에서의 규칙을 알고리즘이 찾아내게 만드는 방법
여기서의 알고리즘은 두 가지로 나뉜다.
- 화이트 박스 알고리즘 : 사람이 해석할수 있는 알고리즘 (ex) 결정 트리)
- 블랙 박스 알고리즘 : 사람이 해석할 수 없는 알고리즘 (ex) 신경망..)
2) 변수의 종류
- 종속 변수 : 결과를 나타내는 변수(Y)
- 독립 변수 : 종속변수의 원인에 해당하는 변수(X)
3) 변수와 알고리즘
목적 | 종속변수 | 독립변수 | 주요알고리즘 | |
예측 | 종속 변수 예측 | O | O | 선형 회귀분석 |
압축 | 차원 축소 | X | O | 주성분분석 |
분류 | 닮은 데이터의 그룹화 | O/X | O | 마할라노비스-다구치시스템 (교사학습) |
- 예측 알고리즘 : 종속변수와 독립변수 사이의 인과관계를 이용해 모델을 만들어 종석변수의 값 예측
- 압축 알고리즘 : 데이터의 차원을 축소하기 위해 사용되는 알고리즘, 독립변수들 간의 관계 분석하여 정보를 압축
- 분류 알고리즘 : 분류와 군집화로 나뉨
분류 : 종속변수를 기준으로 독립변수의 특징을 학습시켜 분류를 하는 알고리즘
군집화(종속변수X) : 독립변수의 속성을 파악해 비슷한 속성을 가진 데이터끼리 묶는 알고리즘
'데이터 분석 > 기초' 카테고리의 다른 글
[데이터 분석 , 수학] 5. 회귀 분석(예측 기법) (0) | 2020.06.02 |
---|---|
[데이터 분석 , 수학] 4. 마할라노비스-다구찌 시스템(분류 기법) (0) | 2020.06.02 |
[데이터 분석 , 수학] 3. 압축기법(주성분 분석) (0) | 2020.05.30 |
[데이터 분석 , 수학] 2. 기초 수학 (0) | 2020.05.26 |