1. Data Analyst/1-1. Python(32)
-
고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기
고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기고객의 주문 내역을 분석하는 과정에서 중복된 정보를 처리하는 것은 매우 중요한 작업입니다. 특히 한 고객이 여러 번 주문한 경우, 각 고객의 최신 주문만 남기고 이전 주문은 제거해야 할 필요가 있습니다. 이번 글에서는 이러한 과정을 간단하게 설명하겠습니다.1. 데이터 준비우선, 고객의 주문 내역을 담고 있는 데이터프레임을 준비해야 합니다. 이 데이터프레임에는 고객 번호, 주문 날짜 및 시간, 주문 내용 등의 정보가 포함되어 있습니다. 예를 들어, 아래와 같은 데이터가 있을 수 있습니다:Customer No.Sale Date & TimeItem Name1012024-06-01 14:30:00A1012024-06-10 16:00:00B1022024-0..
2024.11.11 -
[Python 실무] 그룹화 후 특정 행, 특정 열 삭제
데이터 형태 : 시간대별 구매액을 그룹화 (1) Price_range의 'Unknown' 삭제하기 (2) Hour의 '23' 삭제하기 ** SUMMARY **그룹화 한 후 열을 삭제하고 싶다면 . drop ( columns = 삭제할 열이름 (text일 경우 '열이름') ) 행을 삭제하고 싶다면 . drop ( 삭제할 열이름 (text일 경우 '열이름') )
2024.11.10 -
파이썬 실무 - 각 지점의 월별 최고 매출액 필터링
파이썬 실무 - 각 지점의 월별 최고 매출액 필터링 안녕하세요! 오늘은 파이썬을 사용하여 각 지점의 최고 매출액을 구하는 방법에 대해 알아보겠습니다. 예제와 함께 실무에서 유용한 분석을 어떻게 할 수 있는지 살펴보겠습니다.문제 설정우리가 가지고 있는 데이터프레임 df는 매출 데이터가 포함된 테이블입니다. 이 데이터는 매출이 발생한 매장(Store)과 월(Month), 그리고 해당 월의 매출 합계(Sub-Total)를 포함합니다. 목표는 각 매장과 월별로 최고 매출액을 찾아내는 것입니다.데이터 예시우선, 예를 들어 데이터프레임 df는 다음과 같은 형태일 수 있습니다: StoreMonthSub-TotalAJan500AJan700AFeb600BJan800BFeb750BFeb850CJan450CFeb650CFe..
2024.11.08 -
Pandas의 filter() 메서드: 그룹화 후 조건으로 필터링하기
매출 분석, 고객행동분석 등 실무에서 많이 쓰이는 그룹화! 그룹화 한 후 특정 조건에 부합하는 그룹만 필터링하고 싶다면?? 데이터 분석을 진행하다 보면, 특정 조건을 만족하는 데이터만을 추출하고 싶을 때가 많습니다. Pandas 라이브러리는 이를 위한 강력한 도구를 제공하는데, 그 중 하나가 바로 filter() 메서드입니다. 특히, 그룹화한 후 조건에 맞는 데이터만을 선택할 때 filter() 메서드는 매우 유용합니다. 이번 포스트에서는 그룹화와 필터링의 조합을 통해 원하는 데이터를 효율적으로 추출하는 방법에 대해 알아보겠습니다. 그룹화와 필터링의 중요성데이터셋이 클 경우, 특정 조건에 맞는 데이터를 찾는 것은 쉽지 않을 수 있습니다. 이럴 때는 데이터를 그룹화하여 각각의 그룹에 대해 조건을 적용하는 ..
2024.09.20 -
실무에서 유용한 Pandas 문자열 관련 메서드 10가지와 사용 예시
데이터 분석에서 문자열 데이터는 매우 중요합니다. 사용자 입력, 로그 파일, 텍스트 데이터 등 다양한 형식의 문자열을 처리해야 하는 경우가 많습니다. Pandas는 문자열 데이터를 다루는 데 강력한 도구를 제공합니다. 이번 포스트에서는 실무에서 자주 사용되는 Pandas의 문자열 관련 메서드 10가지를 소개하고, 각 메서드의 실무 사용 예시를 통해 어떻게 활용될 수 있는지 살펴보겠습니다. 1. .str.len()사용 예시고객의 휴대폰 번호에서 8글자 이하의 번호는 무의미하다고 보고, 8글자 이상만 필터링할 수 있습니다.filtered_df = df[df['phone_number'].str.len() >= 8] 2. .str.lower()사용 예시이메일 주소를 소문자로 변환하여 중복된 이메일을 식별하고 데..
2024.09.20 -
Python 실무 - 파이썬 그룹 기준으로 데이터 통일하기
pandas 데이터프레임에서 .loc를 활용한 데이터 선택 및 수정pandas는 데이터 분석과 조작을 위한 강력한 파이썬 라이브러리입니다. 데이터프레임은 pandas의 핵심 데이터 구조로, 테이블 형식의 데이터를 저장하고 처리할 수 있습니다. 데이터프레임에서 특정 행과 열을 선택하거나 수정할 때 유용한 방법 중 하나가 바로 .loc입니다. 이 글에서는 .loc의 사용 방법과 예시를 소개합니다..loc 기본 개념.loc는 pandas 데이터프레임에서 행과 열을 선택하거나 수정할 때 사용하는 인덱서입니다. 구문은 다음과 같습니다:dataframe.loc[행_인덱스, 열_이름] 행_인덱스: 선택하거나 수정할 행의 인덱스를 지정합니다.열_이름: 선택하거나 수정할 열의 이름을 지정합니다. 예시 1: 단일 인덱스를..
2024.08.30 -
[python 실무] PDF 이미지(PNG)로 전환 - 1초컷
오늘은 Python을 활용하여 PDF 파일을 PNG 이미지로 변환하는 방법에 대해 알려드릴게요. PDF 파일을 이미지로 변환하는 과정은 종종 필요한 작업이며, 특히 문서의 각 페이지를 이미지로 추출할 때 유용합니다. 1. 패키지설치 : PyMuPDF먼저, 아래의 패키지를 설치해야 합니다. 이 패키지는 PDF 파일을 다루는 데 필요합니다. !pip install PyMuPDF 이제 Python 코드를 작성해보겠습니다. 아래 코드는 PyMuPDF를 사용하여 PDF 파일을 PNG 이미지로 변환하는 방법을 보여줍니다. 2. Python 코드 작성하기패키지 불러오기 import fitz import fitz: PyMuPDF의 fitz 모듈을 사용합니다. 이 모듈은 PDF 파일을 다루는 데 필요합니다. PDF ->..
2024.07.11 -
[Python 실무] 하위컬럼 불러오기
빨간 네모친 컬럼을 가르키고 싶음. 문제는 컬럼이 이중으로 되어있다는 점. 아래와 같이 표시할 수 있다 DF ['상위컬럼명'] [ '하위 컬럼명']
2024.06.29 -
[아나콘다 에러] There is an instance of anaconda navigator already running error 1초만에 해결하기
컴퓨터가 재부팅 되더니 쥬피터노트북이 아예 안켜지고 아나콘다 조차 열리지 않음. 아나콘다 들어가려고 하면 아래와 같은 에러가 뜸. 해결방법 1. 코맨드창 들어가줌 (관리자 권한) (맥의 경우, 일반 커맨드 창에서 "sudo -s"를 입력해주고 비밀번호 입력해주면됨 2. 아래 코드 입력killall python 3. 아나콘다가 초기화 되면서 다시 잘 작동함. *** 기존에 있던 파일 모두 그대로 있으니 걱정 노! ***
2024.06.21 -
[Python 실무] 파이썬 날짜 년/월/일/시간/분/초로 변환하기 - 1초컷
매출분석, 시계열분석에 필수로 알아야 하는 함수 : DATETIME 사용목적: 연도/월/일/시간/분/초로 되어 있는 날짜/시간 데이터를 각 필요한 부분만 추출하기 위해 #함수를 사용하기 위해 항상 pd.to_datetime을 먼저 써준다. 데이터를 이 함수를 적용할 수 있는 형태로 바꾸는 작업이다. 데이터프레임 [ ' 날짜 컬럼명 ' ] = pd.to_datetime ( 데이터프레임 [ ' 날짜 컬럼명 ' ] ) Date Components (날짜 구성 요소)dt.year: 연도dt.month: 월 (1부터 12까지)dt.day: 일dt.date: 년-월-일 Time Components (시간 구성 요소)dt.hour: 시간 (0부터 23까지)dt.minute: 분 (0부터 59까지)d..
2024.06.20