2024. 11. 11. 13:27ㆍ1. Data Analyst/1-1. Python
고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기
고객의 주문 내역을 분석하는 과정에서 중복된 정보를 처리하는 것은 매우 중요한 작업입니다. 특히 한 고객이 여러 번 주문한 경우, 각 고객의 최신 주문만 남기고 이전 주문은 제거해야 할 필요가 있습니다. 이번 글에서는 이러한 과정을 간단하게 설명하겠습니다.
1. 데이터 준비
우선, 고객의 주문 내역을 담고 있는 데이터프레임을 준비해야 합니다. 이 데이터프레임에는 고객 번호, 주문 날짜 및 시간, 주문 내용 등의 정보가 포함되어 있습니다. 예를 들어, 아래와 같은 데이터가 있을 수 있습니다:
Customer No. | Sale Date & Time | Item Name |
101 | 2024-06-01 14:30:00 | A |
101 | 2024-06-10 16:00:00 | B |
102 | 2024-06-02 12:00:00 | C |
102 | 2024-06-12 18:30:00 | D |
101 | 2024-06-15 10:15:00 | E |
2. 데이터 정렬
가장 먼저, 주문 날짜를 기준으로 데이터를 정렬해야 합니다. 최신 주문이 먼저 오도록 정렬하면, 중복 제거 시 최신 주문이 남게 됩니다. 이를 위해 pandas의 sort_values() 메서드를 사용할 수 있습니다.
python
코드 복사
df = df.sort_values(by='Sale Date & Time', ascending=False)
3. 중복 제거
이제 고객 번호를 기준으로 중복된 주문 정보를 제거할 차례입니다. drop_duplicates() 메서드를 사용하여 중복된 고객 번호를 가진 주문 중에서 가장 첫 번째(즉, 가장 최신)의 주문만 남길 수 있습니다.
python
코드 복사
df_latest_orders = df.drop_duplicates(subset=['Customer No.'], keep='first')
4. 결과 확인
이제 df_latest_orders에는 각 고객의 최신 주문만 남아 있을 것입니다. 예를 들어, 위의 데이터에서 각 고객의 최신 주문은 다음과 같이 나타날 것입니다:
Customer No. | Sale Date & Time | Item Name |
101 | 2024-06-15 10:15:00 | E |
102 | 2024-06-12 18:30:00 | D |
5. 결론
고객의 주문 내역에서 중복된 정보를 제거하고 최신 주문만 남기는 과정은 데이터 분석에 있어 매우 중요합니다. 이 방법을 통해 각 고객의 최신 주문 정보를 쉽게 추출하고, 이를 바탕으로 마케팅 전략을 세우거나 고객 분석을 진행할 수 있습니다.
이번 포스트가 도움이 되었길 바라며, 데이터 처리에 대한 추가적인 질문이나 궁금한 점이 있다면 언제든지 댓글로 남겨주세요!
'1. Data Analyst > 1-1. Python' 카테고리의 다른 글
[Python 실무] 그룹화 후 특정 행, 특정 열 삭제 (1) | 2024.11.10 |
---|---|
파이썬 실무 - 각 지점의 월별 최고 매출액 필터링 (0) | 2024.11.08 |
Pandas의 filter() 메서드: 그룹화 후 조건으로 필터링하기 (0) | 2024.09.20 |
실무에서 유용한 Pandas 문자열 관련 메서드 10가지와 사용 예시 (0) | 2024.09.20 |
Python 실무 - 파이썬 그룹 기준으로 데이터 통일하기 (0) | 2024.08.30 |