실무파이썬(6)
-
고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기
고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기고객의 주문 내역을 분석하는 과정에서 중복된 정보를 처리하는 것은 매우 중요한 작업입니다. 특히 한 고객이 여러 번 주문한 경우, 각 고객의 최신 주문만 남기고 이전 주문은 제거해야 할 필요가 있습니다. 이번 글에서는 이러한 과정을 간단하게 설명하겠습니다.1. 데이터 준비우선, 고객의 주문 내역을 담고 있는 데이터프레임을 준비해야 합니다. 이 데이터프레임에는 고객 번호, 주문 날짜 및 시간, 주문 내용 등의 정보가 포함되어 있습니다. 예를 들어, 아래와 같은 데이터가 있을 수 있습니다:Customer No.Sale Date & TimeItem Name1012024-06-01 14:30:00A1012024-06-10 16:00:00B1022024-0..
2024.11.11 -
[Python 실무] 그룹화 후 특정 행, 특정 열 삭제
데이터 형태 : 시간대별 구매액을 그룹화 (1) Price_range의 'Unknown' 삭제하기 (2) Hour의 '23' 삭제하기 ** SUMMARY **그룹화 한 후 열을 삭제하고 싶다면 . drop ( columns = 삭제할 열이름 (text일 경우 '열이름') ) 행을 삭제하고 싶다면 . drop ( 삭제할 열이름 (text일 경우 '열이름') )
2024.11.10 -
실무에서 유용한 Pandas 문자열 관련 메서드 10가지와 사용 예시
데이터 분석에서 문자열 데이터는 매우 중요합니다. 사용자 입력, 로그 파일, 텍스트 데이터 등 다양한 형식의 문자열을 처리해야 하는 경우가 많습니다. Pandas는 문자열 데이터를 다루는 데 강력한 도구를 제공합니다. 이번 포스트에서는 실무에서 자주 사용되는 Pandas의 문자열 관련 메서드 10가지를 소개하고, 각 메서드의 실무 사용 예시를 통해 어떻게 활용될 수 있는지 살펴보겠습니다. 1. .str.len()사용 예시고객의 휴대폰 번호에서 8글자 이하의 번호는 무의미하다고 보고, 8글자 이상만 필터링할 수 있습니다.filtered_df = df[df['phone_number'].str.len() >= 8] 2. .str.lower()사용 예시이메일 주소를 소문자로 변환하여 중복된 이메일을 식별하고 데..
2024.09.20 -
Python 실무 - 파이썬 그룹 기준으로 데이터 통일하기
pandas 데이터프레임에서 .loc를 활용한 데이터 선택 및 수정pandas는 데이터 분석과 조작을 위한 강력한 파이썬 라이브러리입니다. 데이터프레임은 pandas의 핵심 데이터 구조로, 테이블 형식의 데이터를 저장하고 처리할 수 있습니다. 데이터프레임에서 특정 행과 열을 선택하거나 수정할 때 유용한 방법 중 하나가 바로 .loc입니다. 이 글에서는 .loc의 사용 방법과 예시를 소개합니다..loc 기본 개념.loc는 pandas 데이터프레임에서 행과 열을 선택하거나 수정할 때 사용하는 인덱서입니다. 구문은 다음과 같습니다:dataframe.loc[행_인덱스, 열_이름] 행_인덱스: 선택하거나 수정할 행의 인덱스를 지정합니다.열_이름: 선택하거나 수정할 열의 이름을 지정합니다. 예시 1: 단일 인덱스를..
2024.08.30 -
[python 실무] 파이썬 여러조건 제외한 데이터로 새로운 데이터프레임 생성하기 (복수조건걸기) - 1초컷
데이터프레임 df가 있다고 가정. df는 아래와 같다고 가정 Brand nameCategoryItemPrice ABCAPPETIZERFois gras$24 ABCSAUCEBalkan$2 LetinsonAPPETIZERFois gras - M$18 NelpanDESSERTCherry drink$9.5 LetinsonAPPETIZERFois gras - S$21 LetinsonDESSERTMango icecream$7 ABC와 Nelpan 회사 외의 모든 회사들만 필터링하는 코드를 작성해보자. n_df = df[~df['Brand name'].isin(['ABC', 'Nelpan'])] ~ 의 의미는 전체 문장을 부정한다. 그러므로 isin이 아닌 것 즉, Brand name이 ABC와 Nelpan..
2024.05.17 -
[Python 실무] 경쟁사 가격 크롤링 - 여러 업체/브랜드/회사 물품 가격 데이터 수집하기
지난 글에 이어서 이번에는 복수 업체들의 데이터를 한 번에 크롤링 하는 방법을 다루겠다. # 각 브랜드와 URL 정의brand_urls = { "경쟁사1": "url1", "경쟁사2": "url2", "경쟁사3": "url3", "경쟁사4": "url4", "경쟁사5": "url5", "경쟁사6": "url6"}# # 웹 드라이버 설정# options = Options()# options.headless = True # 화면 출력 안 함 (백그라운드 실행)# driver = webdriver.Chrome(options=options)# 결과를 저장할 리스트 초기화data = []# 각 브랜드에 대해 반복for brand, url in brand_urls.items()..
2024.05.17