1. Data Analyst(134)
-
[구글 스프레드시트] 구글 스프레드시트 행 전체에 조건부서식걸기
안녕하세요~! :D구글 스프레드시트에서 '조건부서식'이라는 기능을 활용하여 특정 조건에 만족하는 행 전체에 서식을 적용하는 방법을 다루겠습니다. 이 팁은 실무에서 정말 정말 도움이 되고 활용도가 높은 것 중 높은 순위를 차지하지 않을까 싶은데요, 저의 경우, 제가 해야할 업무들을 다루는 업무관리 툴에서 "진행중"일 경우에만 노란색으로 한번 더 강조함으로써 활용하고 있습니다. 예를 들어 업무 리스트가 아래와 같을 때, 완료된 것은 'Complete',아직 미완료된 것은 'In progress'라고 표시가 됩니다. 이 글을 잘 따라오시다보면 아래와 같은 결과를 만들 수 있습니다. 물론, 조건에 맞춰지면 자동으로요! 진행중인 업무가 포함된 행 전체를 노란색으로 칠해줌으로써 어떻게 강조할 ..
2024.06.21 -
[Python 실무] 파이썬 날짜 년/월/일/시간/분/초로 변환하기 - 1초컷
매출분석, 시계열분석에 필수로 알아야 하는 함수 : DATETIME 사용목적: 연도/월/일/시간/분/초로 되어 있는 날짜/시간 데이터를 각 필요한 부분만 추출하기 위해 #함수를 사용하기 위해 항상 pd.to_datetime을 먼저 써준다. 데이터를 이 함수를 적용할 수 있는 형태로 바꾸는 작업이다. 데이터프레임 [ ' 날짜 컬럼명 ' ] = pd.to_datetime ( 데이터프레임 [ ' 날짜 컬럼명 ' ] ) Date Components (날짜 구성 요소)dt.year: 연도dt.month: 월 (1부터 12까지)dt.day: 일dt.date: 년-월-일 Time Components (시간 구성 요소)dt.hour: 시간 (0부터 23까지)dt.minute: 분 (0부터 59까지)d..
2024.06.20 -
[Python 실무] 그룹으로 묶어서 데이터 계산하기 (.groupby/ .count() .size().reset_index(name= ' '))
데이터 그룹으로 묶는 방법 a) .groupby ( [ 'A', 'B' ] ) [ ['___'] ] . count ( ) b) .groupby ( [ 'A', 'B' ] ) [ ['___'] ] . size ( ) b) .groupby ( [ 'A', 'B' ] ) [ ['___'] ] . size ( ) . reset_index ( name = 'count' ) 위의 세 가지 방법의 결과값은 모두 동일하다. . 다만 표현 방식에 있어 아주 약간의 차이가 있을 뿐. 아래의 데이터는 Store별 Order Type의 각 개수를 센 결과값이다. a) .groupby ( [ 'A', 'B' ] ) [ ['___'] ] . count ( ) 결과값이 Pivot table처럼 겹치는 경우에는 병합이 되었다. 그리..
2024.06.15 -
[python 실무] 파이썬 여러조건 제외한 데이터로 새로운 데이터프레임 생성하기 (복수조건걸기) - 1초컷
데이터프레임 df가 있다고 가정. df는 아래와 같다고 가정 Brand nameCategoryItemPrice ABCAPPETIZERFois gras$24 ABCSAUCEBalkan$2 LetinsonAPPETIZERFois gras - M$18 NelpanDESSERTCherry drink$9.5 LetinsonAPPETIZERFois gras - S$21 LetinsonDESSERTMango icecream$7 ABC와 Nelpan 회사 외의 모든 회사들만 필터링하는 코드를 작성해보자. n_df = df[~df['Brand name'].isin(['ABC', 'Nelpan'])] ~ 의 의미는 전체 문장을 부정한다. 그러므로 isin이 아닌 것 즉, Brand name이 ABC와 Nelpan..
2024.05.17 -
[Python 실무] 경쟁사 가격 크롤링 - 여러 업체/브랜드/회사 물품 가격 데이터 수집하기
지난 글에 이어서 이번에는 복수 업체들의 데이터를 한 번에 크롤링 하는 방법을 다루겠다. # 각 브랜드와 URL 정의brand_urls = { "경쟁사1": "url1", "경쟁사2": "url2", "경쟁사3": "url3", "경쟁사4": "url4", "경쟁사5": "url5", "경쟁사6": "url6"}# # 웹 드라이버 설정# options = Options()# options.headless = True # 화면 출력 안 함 (백그라운드 실행)# driver = webdriver.Chrome(options=options)# 결과를 저장할 리스트 초기화data = []# 각 브랜드에 대해 반복for brand, url in brand_urls.items()..
2024.05.17 -
[Python 실무] 경쟁사 가격 크롤링
온라인 오더 가격 기준으로 핵심 경쟁사 가격 데이터를 수집할 것이다.현상황에서는 대부분의 경쟁사들이 동일한 구조를 갖고 있다. 경쟁사 가격 조사 목적경쟁사가격 변동 트래킹자사 브랜드의 가격포지션 파악(1차 코드): 한 브랜드의 [카테고리 - 아이템 - 가격 - 수집날짜] 데이터 수집하기 ... 0. 필요한 라이브러리# 현재 설치되어 있는 라이브러리 확인# !pip list # 라이브러리 설치# !pip install pandas# !pip install numpy# !pip install matplotlib# !pip install selenium# !pip install beautifulsoup4# !pip install tqdm 1. 필요한 라이브러리 importimport time..
2024.05.17 -
[구글시트꿀팁] Googlesheet 차트 축 없애기/숨기기 - 1초컷
구글시트(스프레드시트) 차트 축 없애는 방법. 예시 데이터 : 2022년부터 2024년도 까지의 1~4월까지의 판매량 데이터를 시각화 하고 싶다. 0. 예시 데이터: 1. 시각화: 차트축(아래 빨간 박스)을 숨기고 싶다. 차트의 차트 축을 여러번 누르면 아래와 같이 Chart editor가 뜨는데, Customize에 들어가서 맨 아래쪽에 위치한 "Vertical axis" 의 Number format을 클릭한다. “Other customs format” 클릭 그리고 디폴트 값으로 적혀있는 0을 지우고 “ “ (한칸 띄어쓰기)를 써주면 끝! [결과]구글스프레드시트 차트축 없애기/숨기기 1초만에 완료!
2024.05.08 -
차트 - 데이터 분포확인이 중요한 이유
바이올린차트 인구분포, 연령분포 볼 때 주로 사용 평균이 60이라고 할 때, 평균을 대표값으로 사용하는데에 주의를 해야함. 이런 경우, 중위값을 같이 확인해주는게 중요. ^ 읽어만 보기. 향후 자세히 다룰 예정 얻을 수 있는 인사이트 1. 차트를 통해 데이터 분포를 보는게 굉장히 많은 인사이트 제공, 데이터 특성파악에 도움됨 2. 분포를 눈으로 보고 끝이아니라, 함께 퍼짐정도, 비대칭성에 관한 수치들을 함께 확인해서 피처(변수)를 조정하거나 어떤 변수가 크게 상관이 있는지 없는지 파악하고 3. 이 결과를 해석함에 있어서 배경지식이 굉장히 많이 활용이 됨.
2024.01.19 -
사분위수 - 이상치(outlier) 탐지
1. 데이터가 한쪽으로 치우친 경우 IQR(사분위수)을 활용한 이상치 탐지: 데이터 분포가 정규분포가 아니라 한쪽으로 치우친 경우 자주 사용하는 이상치 탐지 기법 ^ 위의 예시에서 아웃라이어는 A(-26.7)보다 작거나, B(65.6)보다 큰 수치 아웃라이어로 인사이트 얻기 - 이상치(아웃라이어)끼리 모았을 때는 어떤 특성을 가지는지 - 아웃라이어들이 대부분 어떤 경향이 있다 등을 아웃라이어에 필터를 걸어가며 확인해보는 것도 좋은 방법 2. 데이터가 정규분포를 띔 *정규분포: 데이터의 도수분포곡선이 평균을 중심으로 좌우대칭의 종모양을 띔 1. 데이터 표준화(z) m : 평균 Std : 표준편차 X: 데이터 ==> 표준화값 계산식 = (X-m)/std 2. 이상치 기준인 z 잡기EX) Z = +-3%(기준..
2024.01.19 -
T-test
패스트캠퍼스 데이터분석 마스터클래스 ** 쌍체비교 : 동일 집단(두 집단의 관측수 동일)의 전후 비교 (예: 마케팅 전/후 효과 분석) 유의수준 0.05: 5%(0.05)안에 작으면 우연이 아니다. 자유도: 관측수 -1 T-통계량(t-value): 5%안에 드는 포인트를 지나냐 안지나냐? > 5%안에 든다. == T-통계량 > T-기각치 > 5%안에 못든다. == T-통계량 양측검정 2023년 고객평균매출이 2022년보다 크다 작다 => 단측검정 P-value < 유의계수(0.05) : 우연이 아니다. (==유의미한 값이다) ** 독립표본 검정 필요조건: 두 집단이 등분산성을 만족하..
2024.01.17