1. Data Analyst(121)
-
[python 실무] 파이썬 여러조건 제외한 데이터로 새로운 데이터프레임 생성하기 (복수조건걸기) - 1초컷
데이터프레임 df가 있다고 가정. df는 아래와 같다고 가정 Brand nameCategoryItemPrice ABCAPPETIZERFois gras$24 ABCSAUCEBalkan$2 LetinsonAPPETIZERFois gras - M$18 NelpanDESSERTCherry drink$9.5 LetinsonAPPETIZERFois gras - S$21 LetinsonDESSERTMango icecream$7 ABC와 Nelpan 회사 외의 모든 회사들만 필터링하는 코드를 작성해보자. n_df = df[~df['Brand name'].isin(['ABC', 'Nelpan'])] ~ 의 의미는 전체 문장을 부정한다. 그러므로 isin이 아닌 것 즉, Brand name이 ABC와 Nelpan..
2024.05.17 -
[Python 실무] 경쟁사 가격 크롤링 - 복수 업체 물품, 가격 데이터 수집하기
지난 글에 이어서 이번에는 복수 업체들의 데이터를 한 번에 크롤링 하는 방법을 다루겠다. # 각 브랜드와 URL 정의brand_urls = { "경쟁사1": "url1", "경쟁사2": "url2", "경쟁사3": "url3", "경쟁사4": "url4", "경쟁사5": "url5", "경쟁사6": "url6"}# # 웹 드라이버 설정# options = Options()# options.headless = True # 화면 출력 안 함 (백그라운드 실행)# driver = webdriver.Chrome(options=options)# 결과를 저장할 리스트 초기화data = []# 각 브랜드에 대해 반복for brand, url in brand_urls.items()..
2024.05.17 -
[Python 실무] 경쟁사 가격 크롤링
온라인 오더 가격 기준으로 핵심 경쟁사 가격 데이터를 수집할 것이다.현상황에서는 대부분의 경쟁사들이 동일한 구조를 갖고 있다. 경쟁사 가격 조사 목적경쟁사가격 변동 트래킹자사 브랜드의 가격포지션 파악(1차 코드): 한 브랜드의 [카테고리 - 아이템 - 가격 - 수집날짜] 데이터 수집하기 ... 0. 필요한 라이브러리# 현재 설치되어 있는 라이브러리 확인# !pip list # 라이브러리 설치# !pip install pandas# !pip install numpy# !pip install matplotlib# !pip install selenium# !pip install beautifulsoup4# !pip install tqdm 1. 필요한 라이브러리 importimport time..
2024.05.17 -
[구글시트꿀팁] Googlesheet 차트 축 없애기/숨기기 - 1초컷
구글시트(스프레드시트) 차트 축 없애는 방법. 예시 데이터 : 2022년부터 2024년도 까지의 1~4월까지의 판매량 데이터를 시각화 하고 싶다. 0. 예시 데이터: 1. 시각화: 차트축(아래 빨간 박스)을 숨기고 싶다. 차트의 차트 축을 여러번 누르면 아래와 같이 Chart editor가 뜨는데, Customize에 들어가서 맨 아래쪽에 위치한 "Vertical axis" 의 Number format을 클릭한다. “Other customs format” 클릭 그리고 디폴트 값으로 적혀있는 0을 지우고 “ “ (한칸 띄어쓰기)를 써주면 끝! [결과]구글스프레드시트 차트축 없애기/숨기기 1초만에 완료!
2024.05.08 -
차트 - 데이터 분포확인이 중요한 이유
바이올린차트 인구분포, 연령분포 볼 때 주로 사용 평균이 60이라고 할 때, 평균을 대표값으로 사용하는데에 주의를 해야함. 이런 경우, 중위값을 같이 확인해주는게 중요. ^ 읽어만 보기. 향후 자세히 다룰 예정 얻을 수 있는 인사이트 1. 차트를 통해 데이터 분포를 보는게 굉장히 많은 인사이트 제공, 데이터 특성파악에 도움됨 2. 분포를 눈으로 보고 끝이아니라, 함께 퍼짐정도, 비대칭성에 관한 수치들을 함께 확인해서 피처(변수)를 조정하거나 어떤 변수가 크게 상관이 있는지 없는지 파악하고 3. 이 결과를 해석함에 있어서 배경지식이 굉장히 많이 활용이 됨.
2024.01.19 -
사분위수 - 이상치(outlier) 탐지
1. 데이터가 한쪽으로 치우친 경우 IQR(사분위수)을 활용한 이상치 탐지: 데이터 분포가 정규분포가 아니라 한쪽으로 치우친 경우 자주 사용하는 이상치 탐지 기법 ^ 위의 예시에서 아웃라이어는 A(-26.7)보다 작거나, B(65.6)보다 큰 수치 아웃라이어로 인사이트 얻기 - 이상치(아웃라이어)끼리 모았을 때는 어떤 특성을 가지는지 - 아웃라이어들이 대부분 어떤 경향이 있다 등을 아웃라이어에 필터를 걸어가며 확인해보는 것도 좋은 방법 2. 데이터가 정규분포를 띔 *정규분포: 데이터의 도수분포곡선이 평균을 중심으로 좌우대칭의 종모양을 띔 1. 데이터 표준화(z) m : 평균 Std : 표준편차 X: 데이터 ==> 표준화값 계산식 = (X-m)/std 2. 이상치 기준인 z 잡기EX) Z = +-3%(기준..
2024.01.19 -
T-test
패스트캠퍼스 데이터분석 마스터클래스 ** 쌍체비교 : 동일 집단(두 집단의 관측수 동일)의 전후 비교 (예: 마케팅 전/후 효과 분석) 유의수준 0.05: 5%(0.05)안에 작으면 우연이 아니다. 자유도: 관측수 -1 T-통계량(t-value): 5%안에 드는 포인트를 지나냐 안지나냐? > 5%안에 든다. == T-통계량 > T-기각치 > 5%안에 못든다. == T-통계량 양측검정 2023년 고객평균매출이 2022년보다 크다 작다 => 단측검정 P-value < 유의계수(0.05) : 우연이 아니다. (==유의미한 값이다) ** 독립표본 검정 필요조건: 두 집단이 등분산성을 만족하..
2024.01.17 -
[python 실무] pandas 천단위 구분, 소수점 2개만 보이기 - 1초컷
import pandas as pd # Pandas 소수점 및 천단위 구분 기호 지정 pd.options.display.float_format = '{:,.2}f'/format 위의 코드를 입력하면 결과값인 수치에 천단위로 ,를 이용해 구분이 될 것이고, 소수점도 2개만 보여질 것이다. 소수점을 한 자리만 보이고 싶다면 , .2 -> .1로 변경하면 된다.
2023.11.30 -
[python 실무] 파이썬 조건에 맞는 행만 제거하기 - 1초컷
파이썬을 사용하여 조건에 해당하는 행만 추출하고 제거하려면 어떻게 해야할까? 우선 기본적인 라이브러리를 불러온다. import pandas as pd import os import matplotlib.pyplot as plt 파일을 불러온다. file = 'file_name.csv' df = pd.read_csv(file, header=0) 여기서 서울인 행만 제거하려면 어떻게 해야할까? df = df_bc.drop(df_bc[df_bc['지역'] == '서울'].index, axis=0) df.head(10) # 조건에 맞는 행 삭제하기 df.drop(df[df['지역'] =='서울'].index, axis=0) # df['지역']=='서울' : df_bc프레임 지역 컬럼에서 서울인 모든 행 추출 # ..
2023.11.29 -
[python 실무] 파이썬 csv 파일 불러오기 - 데이터가 1행에 없는 경우 해결방법 - 1초컷
파이썬에서 csv 파일은 불러오는데 필요한 데이터가 1행에 없는 경우 어떻게 원하는 데이터를 불러올 수 있을까? 예를 들어 1,2행에는 업데이트 날짜와 데이터 입력방법에 대한 안내가 있다고 가정하자. 흔하게 불러오는 방법대로라면 1행이 자동으로 컬럼명이 포함된 행으로 설정된다. 하지만 데이터 파일이 아래와 같이 컬럼명이 4행에 있는 형태라면? import pandas as pd import os import matplotlib.pyplot as plt file = 'file_name.csv' df = pd.read_csv(file) df.head(5) 보여지는 결과는 1행이 기준이 되어 컬럼명에 Updated: 2031.07.03만 보일 것이다. 4행을 컬럼명이 있는 기준행으로 설정하기 위해서는 파일을 ..
2023.11.28