1. Data Analyst/1-0-2. Statistics (통계)

사분위수 - 이상치(outlier) 탐지

Data Analyst 2024. 1. 19. 01:25
728x90
반응형


1. 데이터가 한쪽으로 치우친 경우
IQR(사분위수)을 활용한 이상치 탐지: 데이터 분포가 정규분포가 아니라 한쪽으로 치우친 경우 자주 사용하는 이상치 탐지 기법


^ 위의 예시에서 아웃라이어는 A(-26.7)보다 작거나, B(65.6)보다 큰 수치


아웃라이어로 인사이트 얻기
- 이상치(아웃라이어)끼리 모았을 때는 어떤 특성을 가지는지
- 아웃라이어들이 대부분 어떤 경향이 있다 등을 아웃라이어에 필터를 걸어가며 확인해보는 것도 좋은 방법





2. 데이터가 정규분포를 띔
*정규분포: 데이터의 도수분포곡선이 평균을 중심으로 좌우대칭의 종모양을 띔



1. 데이터 표준화(z)

   m : 평균
   Std :  표준편차
   X:  데이터


==> 표준화값 계산식 = (X-m)/std


2. 이상치 기준인 z 잡기

EX) Z = +-3%(기준은 달라질 수 있으나 보통 3으로 잡음)을 이상치로 보겠다 하면 이상치  97%(0.97) 밖에 위치하는 수, 3%(0.3)보다 작은  수들은 아웃라이어로 간주





박스의 가운데 선: 중위값
즉, 100명이 쭉 있다면 50등에 있는 사람의 수치를 의미

1등석으로 2,3등석에 대한 분포가 잘 보이지 않으므로 2,3등석만 따로 분포를 확인함.

2등석의 경우 탑승요금이 10~30사이 분포에 있고
[질문] 3등석의 경우 5~???
[질문] 박스크기 == 데이터의 절반?

[질문] 중위값 혹은 1분위수 3분위수는 각 전체데이터의 25%, 75%에 해당하는 구간인데, 전체데이터에 이상치도 포함해 계산하는가?


선 밖의 점들-> 이상치이지 않을까하는 생각도 한번쯤은 해보는게 좋음





728x90
반응형