1. Data Analyst/1-0-2. Statistics (통계)(6)
-
차트 - 데이터 분포확인이 중요한 이유
바이올린차트 인구분포, 연령분포 볼 때 주로 사용 평균이 60이라고 할 때, 평균을 대표값으로 사용하는데에 주의를 해야함. 이런 경우, 중위값을 같이 확인해주는게 중요. ^ 읽어만 보기. 향후 자세히 다룰 예정 얻을 수 있는 인사이트 1. 차트를 통해 데이터 분포를 보는게 굉장히 많은 인사이트 제공, 데이터 특성파악에 도움됨 2. 분포를 눈으로 보고 끝이아니라, 함께 퍼짐정도, 비대칭성에 관한 수치들을 함께 확인해서 피처(변수)를 조정하거나 어떤 변수가 크게 상관이 있는지 없는지 파악하고 3. 이 결과를 해석함에 있어서 배경지식이 굉장히 많이 활용이 됨.
2024.01.19 -
사분위수 - 이상치(outlier) 탐지
1. 데이터가 한쪽으로 치우친 경우 IQR(사분위수)을 활용한 이상치 탐지: 데이터 분포가 정규분포가 아니라 한쪽으로 치우친 경우 자주 사용하는 이상치 탐지 기법 ^ 위의 예시에서 아웃라이어는 A(-26.7)보다 작거나, B(65.6)보다 큰 수치 아웃라이어로 인사이트 얻기 - 이상치(아웃라이어)끼리 모았을 때는 어떤 특성을 가지는지 - 아웃라이어들이 대부분 어떤 경향이 있다 등을 아웃라이어에 필터를 걸어가며 확인해보는 것도 좋은 방법 2. 데이터가 정규분포를 띔 *정규분포: 데이터의 도수분포곡선이 평균을 중심으로 좌우대칭의 종모양을 띔 1. 데이터 표준화(z) m : 평균 Std : 표준편차 X: 데이터 ==> 표준화값 계산식 = (X-m)/std 2. 이상치 기준인 z 잡기EX) Z = +-3%(기준..
2024.01.19 -
T-test
패스트캠퍼스 데이터분석 마스터클래스 ** 쌍체비교 : 동일 집단(두 집단의 관측수 동일)의 전후 비교 (예: 마케팅 전/후 효과 분석) 유의수준 0.05: 5%(0.05)안에 작으면 우연이 아니다. 자유도: 관측수 -1 T-통계량(t-value): 5%안에 드는 포인트를 지나냐 안지나냐? > 5%안에 든다. == T-통계량 > T-기각치 > 5%안에 못든다. == T-통계량 양측검정 2023년 고객평균매출이 2022년보다 크다 작다 => 단측검정 P-value < 유의계수(0.05) : 우연이 아니다. (==유의미한 값이다) ** 독립표본 검정 필요조건: 두 집단이 등분산성을 만족하..
2024.01.17 -
1종 오류와 2종 오류란?, 실생활 예시 5가지
통계적 가설 검정은 연구와 결정을 할 때 중요한 도구 중 하나입니다. 또한 분석에 조금만 관심이 있다면 한번 쯤은 들어봤을 흔한 용어이기도 합니다. 가설 검정 과정에서 발생가능한 오류는 총 두 가지로 '1종 오류'와 '2종 오류'가 있습니다. 이러한 오류들이 실제 상황에서 어떻게 나타날 수 있는지 예시를 통해 알아보겠습니다. 1종 오류 (False Positive)란? 1종 오류란 귀무가설(H0)이 참인데 기각하는 경우를 의미합니다. 1종오류의 예시는 다음과 같습니다. 1. 의료 진단: 환자가 실제로 건강하지만 의사가 양성 판정을 내린 경우. 이로써 환자는 불필요한 치료나 스트레스를 경험할 수 있습니다. 2. 범죄 조사: 무고한 사람이 유죄 판결을 받은 경우. 이것은 정의에 대한 침해로 이어질 수 있습니..
2023.09.19 -
Linear Regression - 선형회귀 개념 및 결과 해석방법 (매우쉬움) -2
회귀분석 결과 해석방법은 다음과 같다. [Regression Analysis Output] -1. Summary Output => 회귀 방정식의 데이터 적합성 > Regression analysis is used to estimate the relationships between two more variables : 회귀분석은 두 개 이상의 변수간 관계를 추정하기 위해 사용되는 기법이다. -1. Summary Output 1 Multiple R (= Correlation coefficient) ( -1 ~ 1 ) > Measures the strength of a linear relationship between 2 variables. : 두 변수간의 선형 관계성 정도를 나타내는 지표 > 높을수록 선형관..
2023.09.07 -
Linear Regression - 선형회귀 개념 및 결과 해석방법 (매우쉬움) -1
1. Regression Analysis (회귀 분석) > Regression analysis is used to estimate the relationships between two more variables : 회귀분석은 두 개 이상의 변수간 관계를 추정하기 위해 사용되는 기법이다. > 종속변수(기준변수) : 알고자 하는 (예측하고자 하는) 변수 독립변수(설명변수) : 종속변수에 영향을 주는 요소 > Regression analysis helps you understand how the dependent variable changes when one of the independent variables varies and allows to mathematically determine which of t..
2023.09.07