2024. 1. 19. 01:25ㆍ1. Data Analyst/1-0-2. Statistics (통계)
1. 데이터가 한쪽으로 치우친 경우
IQR(사분위수)을 활용한 이상치 탐지: 데이터 분포가 정규분포가 아니라 한쪽으로 치우친 경우 자주 사용하는 이상치 탐지 기법
^ 위의 예시에서 아웃라이어는 A(-26.7)보다 작거나, B(65.6)보다 큰 수치
아웃라이어로 인사이트 얻기
- 이상치(아웃라이어)끼리 모았을 때는 어떤 특성을 가지는지
- 아웃라이어들이 대부분 어떤 경향이 있다 등을 아웃라이어에 필터를 걸어가며 확인해보는 것도 좋은 방법
2. 데이터가 정규분포를 띔
*정규분포: 데이터의 도수분포곡선이 평균을 중심으로 좌우대칭의 종모양을 띔
1. 데이터 표준화(z)
m : 평균
Std : 표준편차
X: 데이터
==> 표준화값 계산식 = (X-m)/std
2. 이상치 기준인 z 잡기
EX) Z = +-3%(기준은 달라질 수 있으나 보통 3으로 잡음)을 이상치로 보겠다 하면 이상치 97%(0.97) 밖에 위치하는 수, 3%(0.3)보다 작은 수들은 아웃라이어로 간주
박스의 가운데 선: 중위값
즉, 100명이 쭉 있다면 50등에 있는 사람의 수치를 의미
1등석으로 2,3등석에 대한 분포가 잘 보이지 않으므로 2,3등석만 따로 분포를 확인함.
2등석의 경우 탑승요금이 10~30사이 분포에 있고
[질문] 3등석의 경우 5~???
[질문] 박스크기 == 데이터의 절반?
[질문] 중위값 혹은 1분위수 3분위수는 각 전체데이터의 25%, 75%에 해당하는 구간인데, 전체데이터에 이상치도 포함해 계산하는가?
선 밖의 점들-> 이상치이지 않을까하는 생각도 한번쯤은 해보는게 좋음
'1. Data Analyst > 1-0-2. Statistics (통계)' 카테고리의 다른 글
차트 - 데이터 분포확인이 중요한 이유 (0) | 2024.01.19 |
---|---|
T-test (0) | 2024.01.17 |
1종 오류와 2종 오류란?, 실생활 예시 5가지 (0) | 2023.09.19 |
Linear Regression - 선형회귀 개념 및 결과 해석방법 (매우쉬움) -2 (1) | 2023.09.07 |
Linear Regression - 선형회귀 개념 및 결과 해석방법 (매우쉬움) -1 (0) | 2023.09.07 |