분류 알고리즘: 데이터를 특정 목적에 맞게 분류하는 알고리즘
4.1 분류알고리즘의 종류
이진분류 : 두 가지 중에 하나를 학습해야 하는 것
다중클래스 분류 : 여러 가지 클래스를 학습해야 하는 것 - 신경망, 결정트리 ex) 개, 고양이, 토끼..
4.2 마할라노비스 거리
두 점 사이의 거리 계산 방법 (유클리드 거리, 마할라노비스 거리)
=> 마할라노비스 거리 : 데이터가 가지고 있는 확률분포, 상관관계를 고려한 거리재기
4.3 마할라노비스-다구찌(MTS)
일본의 공학자가 4.2 알고리즘을 약간 수정하여 도입한 기법
1) 마할라노비스 다구찌의 원리
정상 집단에 대하여 다차원의 단위공간으로 마할라노비스 공간을 정의하고
임의의 대상이 그 공간으로부터 얼마나 떨어져 있는가를 거리로 산정
-> 거리가 멀어질수록 정상에서 멀리 떨어진 것으로 진단
2) 모델 구축 순서
순서 : 1. 기준데이터 결정
1-1. 초기 데이터로부터 이상치 제거
2. 기준 데이터를 이용하여 정상 모델 작성
2-1. 데이터 표준화
2-2. 상관행렬 구하기
2-3. 상관행렬에 대한 고윳값, 고유벡터 구하기
2-4. 고유벡터를 표준화
2-5. 표준화된 고유벡터를 이용하여 표준화된 데이터의 좌표 이동
3. 기준 데이터를 이용하여 검출 기준 결정
===================모델활용=======================
1. 구축된 모델을 이용하여 실제 데이터의 MD^2 계산
2. 정상/비정상 판단
출처 : 마할라노비스-다구치 시스템과 로지스틱 회귀의 성능비교 : 사례연구 (이승훈, 임근)
'데이터 분석 > 기초' 카테고리의 다른 글
[데이터 분석 , 수학] 5. 회귀 분석(예측 기법) (0) | 2020.06.02 |
---|---|
[데이터 분석 , 수학] 3. 압축기법(주성분 분석) (0) | 2020.05.30 |
[데이터 분석 , 수학] 2. 기초 수학 (0) | 2020.05.26 |
[데이터 분석 , 수학] 1. 데이터 분석 (0) | 2020.05.26 |