Insight to Ptofitc 고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기

고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기

2024. 11. 11. 13:271. Data Analyst/1-1. Python

728x90
반응형

고객 주문 내역 분석: 중복 제거와 최신 주문 정보 남기기

고객의 주문 내역을 분석하는 과정에서 중복된 정보를 처리하는 것은 매우 중요한 작업입니다. 특히 한 고객이 여러 번 주문한 경우, 각 고객의 최신 주문만 남기고 이전 주문은 제거해야 할 필요가 있습니다. 이번 글에서는 이러한 과정을 간단하게 설명하겠습니다.


1. 데이터 준비

우선, 고객의 주문 내역을 담고 있는 데이터프레임을 준비해야 합니다. 이 데이터프레임에는 고객 번호, 주문 날짜 및 시간, 주문 내용 등의 정보가 포함되어 있습니다. 예를 들어, 아래와 같은 데이터가 있을 수 있습니다:

Customer No. Sale Date & Time Item Name
101 2024-06-01 14:30:00 A
101 2024-06-10 16:00:00 B
102 2024-06-02 12:00:00 C
102 2024-06-12 18:30:00 D
101 2024-06-15 10:15:00 E

2. 데이터 정렬

가장 먼저, 주문 날짜를 기준으로 데이터를 정렬해야 합니다. 최신 주문이 먼저 오도록 정렬하면, 중복 제거 시 최신 주문이 남게 됩니다. 이를 위해 pandas의 sort_values() 메서드를 사용할 수 있습니다.

python

코드 복사

df = df.sort_values(by='Sale Date & Time', ascending=False)

 


3. 중복 제거

이제 고객 번호를 기준으로 중복된 주문 정보를 제거할 차례입니다. drop_duplicates() 메서드를 사용하여 중복된 고객 번호를 가진 주문 중에서 가장 첫 번째(즉, 가장 최신)의 주문만 남길 수 있습니다.

python

코드 복사

df_latest_orders = df.drop_duplicates(subset=['Customer No.'], keep='first')

 


4. 결과 확인

이제 df_latest_orders에는 각 고객의 최신 주문만 남아 있을 것입니다. 예를 들어, 위의 데이터에서 각 고객의 최신 주문은 다음과 같이 나타날 것입니다:

Customer No. Sale Date & Time Item Name
101 2024-06-15 10:15:00 E
102 2024-06-12 18:30:00 D

5. 결론

고객의 주문 내역에서 중복된 정보를 제거하고 최신 주문만 남기는 과정은 데이터 분석에 있어 매우 중요합니다. 이 방법을 통해 각 고객의 최신 주문 정보를 쉽게 추출하고, 이를 바탕으로 마케팅 전략을 세우거나 고객 분석을 진행할 수 있습니다.

이번 포스트가 도움이 되었길 바라며, 데이터 처리에 대한 추가적인 질문이나 궁금한 점이 있다면 언제든지 댓글로 남겨주세요!







728x90
반응형