2.1 기초 통계량
- 평균 : 총 합/총 개수
- 중앙값 : 데이터 크기 순으로 정렬했을 때 가운데 위치하는 값
- 최빈값 : 데이터에서 가장 많이 나온 값
- 최댓값/최솟값 : 가장 큰 값 / 가장 작은 값
- 범위 : 최댓값과 최솟값의 차이 (항상 0보다 큰값)
2.2 분산과 표준편차
데이터가 평균을 기준으로 어느 정도 흐트러져 있는지를 알려줌 (클 수록 데이터가 평균으로부터 멀리 퍼져있다)
- 표준오차 : 데이터와 평균과의 차이
(데이터의 흐트러짐을 더 잘 표현하기 위해서는 표준오차에 제곱을 사용, 절대값 사용도 있음)
- 분산(∝^2) : 표준오차/ 데이터의 개수
- 표준편차(∝) : 표준오차에서 제곱해준걸 루트로 풀어준다. (분산값에서 루트 씌어줌)
분모가 n인지 n-1인지를 보고서 모집단(n)이지, 표본집단(n-1)인지 알수 있음
1) 모집단과 표본집단
- 모집단 : 집단 전체 데이터 ex) 한국 평균 연봉 - 한국 전체 회사원
- 표본집단 : 전체 데이터에서 따로 추출된 데이터(부분집합) ex) 한국 평균 연봉 - 100000명의 회사원
2) 정규분포와 표준편차
정규분포곡선과 표준편차의 관계 첨부
- 3시그마 규칙 : ±3∝ 밖에 데이터가 존재할 확률은 0.3%이다.
2.3 데이터 표준화
데이터를 비교하기 위해서는 기준이 같아야 한다.
데이터 표준화(z) = (각데이터 - 데이터의 평균)/표준편차(∝)
2.4 공분산과 상관계수
두 개의 데이터 간의 관계를 알아볼 수 있음
1) 공분산 : 두 개의 데이터가 비례인지? 반비례인지? 알 수 있음
식
S(xy) = (x값의 표준오차)(y값의 표준오차)/n-1
-> (x값의 표준오차)(y값의 표준오차)가 양수 : 비례
-> (x값의 표준오차)(y값의 표준오차)가 음수 : 반비례
2) 상관계수 : 두 개의 데이터가 어느 정도의 관계인지
식
R(xy) = S(xy)/(S(x)*S(y)) (-1<=R(xy)<=1)
= (x, y의 공분산)/ ((x의 공분산)*(y의 공분산))
-> 상관관계가 양수면(양의 상관관계) : 비례
-> 상관관계가 음수면(음의 상관관계) : 반비례
2.5 행렬
- 1차원 배열 : 벡터
- 2차원 배열 : 행렬
1) 행렬의 종류
- 정방행렬 : 행과 열의 개수가 같은 행렬
- 영행렬 : 모든 요소가 0인 행렬
- 대각행렬 : 대각성분을 제외한 나머지가 모든 0인 행렬
- 단위행렬 : 대각행렬+ 대각성분이 모두 1인 행렬
- 삼각행렬 : 대각선 아래 or 위 요소가 모두 0인 행렬
- 전치행렬 : 행렬의 행과 열을 바꾼 행렬
2) 행렬의 법칙
- 교환법칙 : AB ≠ BA
- 결합법칙 : (AB)C=A(BC)
- 분배법칙 : A(B+C)=AB+AC
* 심화 *
- 표준화된 데이터의 분산 식 = Z'*Z/(n-1)
3) 공분산 행렬과 상관행렬
- 상관행렬 식 = Z'*Z/(n-1) ->분산을 구하는 행렬과 같지만 분산은 Z가 벡터이고 상관행렬은 Z가 행렬이다
4) 역행렬
- AB=BA = I (B=A^ -1)
5) 좌표변환 행렬
x축대칭: 1 0 y축대칭 : -1 0 원점 대칭 : -1 0 회전: cos -sin
0 -1 0 1 0 -1 sin cos (시계방향 양수)
2.6 미분과 편미분
미분 : 어떤 점에서의 기울기
편미분 : 어떤 함수가 여러 가지 변수를 가지고 있을 때 각 변수에 대해서 미분을 하는 방식
'데이터 분석 > 기초' 카테고리의 다른 글
[데이터 분석 , 수학] 5. 회귀 분석(예측 기법) (0) | 2020.06.02 |
---|---|
[데이터 분석 , 수학] 4. 마할라노비스-다구찌 시스템(분류 기법) (0) | 2020.06.02 |
[데이터 분석 , 수학] 3. 압축기법(주성분 분석) (0) | 2020.05.30 |
[데이터 분석 , 수학] 1. 데이터 분석 (0) | 2020.05.26 |