파이썬(10)
-
고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기
고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기고객의 주문 내역을 분석하는 과정에서 중복된 정보를 처리하는 것은 매우 중요한 작업입니다. 특히 한 고객이 여러 번 주문한 경우, 각 고객의 최신 주문만 남기고 이전 주문은 제거해야 할 필요가 있습니다. 이번 글에서는 이러한 과정을 간단하게 설명하겠습니다.1. 데이터 준비우선, 고객의 주문 내역을 담고 있는 데이터프레임을 준비해야 합니다. 이 데이터프레임에는 고객 번호, 주문 날짜 및 시간, 주문 내용 등의 정보가 포함되어 있습니다. 예를 들어, 아래와 같은 데이터가 있을 수 있습니다:Customer No.Sale Date & TimeItem Name1012024-06-01 14:30:00A1012024-06-10 16:00:00B1022024-0..
2024.11.11 -
Pandas의 filter() 메서드: 그룹화 후 조건으로 필터링하기
매출 분석, 고객행동분석 등 실무에서 많이 쓰이는 그룹화! 그룹화 한 후 특정 조건에 부합하는 그룹만 필터링하고 싶다면?? 데이터 분석을 진행하다 보면, 특정 조건을 만족하는 데이터만을 추출하고 싶을 때가 많습니다. Pandas 라이브러리는 이를 위한 강력한 도구를 제공하는데, 그 중 하나가 바로 filter() 메서드입니다. 특히, 그룹화한 후 조건에 맞는 데이터만을 선택할 때 filter() 메서드는 매우 유용합니다. 이번 포스트에서는 그룹화와 필터링의 조합을 통해 원하는 데이터를 효율적으로 추출하는 방법에 대해 알아보겠습니다. 그룹화와 필터링의 중요성데이터셋이 클 경우, 특정 조건에 맞는 데이터를 찾는 것은 쉽지 않을 수 있습니다. 이럴 때는 데이터를 그룹화하여 각각의 그룹에 대해 조건을 적용하는 ..
2024.09.20 -
실무에서 유용한 Pandas 문자열 관련 메서드 10가지와 사용 예시
데이터 분석에서 문자열 데이터는 매우 중요합니다. 사용자 입력, 로그 파일, 텍스트 데이터 등 다양한 형식의 문자열을 처리해야 하는 경우가 많습니다. Pandas는 문자열 데이터를 다루는 데 강력한 도구를 제공합니다. 이번 포스트에서는 실무에서 자주 사용되는 Pandas의 문자열 관련 메서드 10가지를 소개하고, 각 메서드의 실무 사용 예시를 통해 어떻게 활용될 수 있는지 살펴보겠습니다. 1. .str.len()사용 예시고객의 휴대폰 번호에서 8글자 이하의 번호는 무의미하다고 보고, 8글자 이상만 필터링할 수 있습니다.filtered_df = df[df['phone_number'].str.len() >= 8] 2. .str.lower()사용 예시이메일 주소를 소문자로 변환하여 중복된 이메일을 식별하고 데..
2024.09.20 -
Python 실무 - 파이썬 그룹 기준으로 데이터 통일하기
pandas 데이터프레임에서 .loc를 활용한 데이터 선택 및 수정pandas는 데이터 분석과 조작을 위한 강력한 파이썬 라이브러리입니다. 데이터프레임은 pandas의 핵심 데이터 구조로, 테이블 형식의 데이터를 저장하고 처리할 수 있습니다. 데이터프레임에서 특정 행과 열을 선택하거나 수정할 때 유용한 방법 중 하나가 바로 .loc입니다. 이 글에서는 .loc의 사용 방법과 예시를 소개합니다..loc 기본 개념.loc는 pandas 데이터프레임에서 행과 열을 선택하거나 수정할 때 사용하는 인덱서입니다. 구문은 다음과 같습니다:dataframe.loc[행_인덱스, 열_이름] 행_인덱스: 선택하거나 수정할 행의 인덱스를 지정합니다.열_이름: 선택하거나 수정할 열의 이름을 지정합니다. 예시 1: 단일 인덱스를..
2024.08.30 -
[python 실무] 파이썬 조건에 맞는 행만 제거하기 - 1초컷
파이썬을 사용하여 조건에 해당하는 행만 추출하고 제거하려면 어떻게 해야할까? 우선 기본적인 라이브러리를 불러온다. import pandas as pd import os import matplotlib.pyplot as plt 파일을 불러온다. file = 'file_name.csv' df = pd.read_csv(file, header=0) 여기서 서울인 행만 제거하려면 어떻게 해야할까? df = df_bc.drop(df_bc[df_bc['지역'] == '서울'].index, axis=0) df.head(10) # 조건에 맞는 행 삭제하기 df.drop(df[df['지역'] =='서울'].index, axis=0) # df['지역']=='서울' : df_bc프레임 지역 컬럼에서 서울인 모든 행 추출 # ..
2023.11.29 -
[python 실무] 파이썬 csv 파일 불러오기 - 데이터가 1행에 없는 경우 해결방법 - 1초컷
파이썬에서 csv 파일은 불러오는데 필요한 데이터가 1행에 없는 경우 어떻게 원하는 데이터를 불러올 수 있을까? 예를 들어 1,2행에는 업데이트 날짜와 데이터 입력방법에 대한 안내가 있다고 가정하자. 흔하게 불러오는 방법대로라면 1행이 자동으로 컬럼명이 포함된 행으로 설정된다. 하지만 데이터 파일이 아래와 같이 컬럼명이 4행에 있는 형태라면? import pandas as pd import os import matplotlib.pyplot as plt file = 'file_name.csv' df = pd.read_csv(file) df.head(5) 보여지는 결과는 1행이 기준이 되어 컬럼명에 Updated: 2031.07.03만 보일 것이다. 4행을 컬럼명이 있는 기준행으로 설정하기 위해서는 파일을 ..
2023.11.28 -
[Python Error] AttributeError: 'list' object has no attribute 'text'
상황: element -> elements로 바꿈 [=> AttributeError 에러 뜸] : List 형식으로 여러 데이터 추출됨. : 다만, 한 개 추출한 경우에는 .text를 사용해 ID 데이터가 불러올 수 있으나, 여러개를 불러온 경우 .text사용 시 에러뜸. ** 에러 이유: 리스트 객체에는 text()메소드를 지원하지 않음. (Webelement 인스턴스에서 text메소드 사용 가능) !! 해결방법: 반복문으로 하나씩 돌리기
2022.03.25 -
[python 실무] 구글 리뷰 크롤링 #2. 더보기 자동클릭
지난 글 보기 지난 글에서는 여러 데이터를 크롤링 하는 방법을 다뤄보았다. 하지만 데이터가 잘려서 크롤링 된 문제가 발생했는데, 이 글에서 함께 해결해보도록 하자. [Python] 구글 리뷰 크롤링 #1. 데이터 여러 개 가져오기 문제사항 : 모든 리뷰를 가져오고 싶지만 가장 첫 리뷰만 크롤링 되었다. 에러원인: 컨테이너 범위 잘못 지정 크롤링 할 데이터를 가져오기 전, 각 데이터를 포함하는 하나의 컨테이너를 지정해 world-insight-seeker.tistory.com 문제사항 : 데이터가 완전히 크롤링 되지 않음 에러원인: '더보기(More)' 클릭 안함 해결 : 더보기(More)를 클릭하는 코드 추가
2022.03.25 -
[python 실무] 크롬드라이버 버전 불일치 (버전 자동 업데이트) chromedriver_autoinstaller | Chrome 버전에 맞게 chromedriver 자동 설치
크롤링을 자동화 시키기 위해 Chromedriver설치는 필수이다. 이때 주의해야할 점이 항상 Chrome의 버전과 Chromedriver버전이 동일해야 한다. 그래서 몇 달전에 실행한 크롤링 파일이 버전 불일치로 에러가 뜨는 경우가 많다 이러한 불편함을 한 번에 해결해주는 라이브러리가 있다 chromedriver_autoinstaller # 설치하기 $ pip install chromedriver_autoinstaller # 불러오기 import chromedriver_autoinstaller 참고블로그 https://codechacha.com/ko/python-selenium-chromedriver-autoinstaller/
2022.03.22 -
[python Error] AttributeError: 'list' object has no attribute 'click' 에러 1초 만에 해결하기
bad_rv = driver.find_elements_by_css_selector("클래스 이름").click() : elements -> element 로 변경하면 해-결!
2022.03.22