Insight to Ptofitc 실무에서 유용한 Pandas 문자열 관련 메서드 10가지와 사용 예시

실무에서 유용한 Pandas 문자열 관련 메서드 10가지와 사용 예시

2024. 9. 20. 12:261. Data Analyst/1-1. Python

728x90
반응형

 
 
데이터 분석에서 문자열 데이터는 매우 중요합니다. 사용자 입력, 로그 파일, 텍스트 데이터 등 다양한 형식의 문자열을 처리해야 하는 경우가 많습니다. Pandas는 문자열 데이터를 다루는 데 강력한 도구를 제공합니다. 이번 포스트에서는 실무에서 자주 사용되는 Pandas의 문자열 관련 메서드 10가지를 소개하고, 각 메서드의 실무 사용 예시를 통해 어떻게 활용될 수 있는지 살펴보겠습니다.
 

1. .str.len()

사용 예시

고객의 휴대폰 번호에서 8글자 이하의 번호는 무의미하다고 보고, 8글자 이상만 필터링할 수 있습니다.

filtered_df = df[df['phone_number'].str.len() >= 8]

 
 

2. .str.lower()

사용 예시

이메일 주소를 소문자로 변환하여 중복된 이메일을 식별하고 데이터의 일관성을 유지할 수 있습니다.

python
Copy code
df['email'] = df['email'].str.lower()

 

3. .str.upper()

사용 예시

고객의 이름을 대문자로 변환하여 데이터베이스에 저장하고, 검색 시 대소문자 문제를 피할 수 있습니다.

python
Copy code
df['customer_name'] = df['customer_name'].str.upper()
 
 

4. .str.strip()

사용 예시

고객의 입력 데이터에서 불필요한 공백을 제거하여 잘못된 데이터가 저장되지 않도록 합니다.

python
Copy code
df['address'] = df['address'].str.strip()
 

5. .str.replace()

사용 예시

비즈니스에서 특정 단어(예: "Inc.")를 제거하여 회사 이름을 정리할 수 있습니다.
 

python
Copy code
df['company_name'] = df['company_name'].str.replace(' Inc.', '')
 
6. .str.contains()

사용 예시

특정 제품이 포함된 주문만 필터링하여 판매 분석을 진행할 수 있습니다.

python
Copy code
filtered_orders = df[df['product_name'].str.contains('Chicken')]

 
 

7. .str.startswith()

사용 예시

특정 지역의 고객 데이터를 추출하기 위해 고객 주소가 특정 지역 코드로 시작하는지 확인합니다.

python
Copy code
filtered_df = df[df['address'].str.startswith('NY')]

 
 

8. .str.endswith()

사용 예시

특정 형식의 파일만 처리하기 위해, 파일명이 '.csv'로 끝나는 파일만 필터링할 수 있습니다.

python
Copy code
filtered_files = df[df['file_name'].str.endswith('.csv')]

 

 

9. .str.split()

사용 예시

고객의 전체 이름을 성과 이름으로 분리하여 분석에 활용할 수 있습니다.

python
Copy code
df[['first_name', 'last_name']] = df['full_name'].str.split(' ', expand=True)

 

 

10. .str.join()

사용 예시

여러 개의 태그를 하나의 문자열로 결합하여 데이터베이스에 저장하거나 출력할 수 있습니다.

python
Copy code
df['tags'] = df[['tag1', 'tag2', 'tag3']].astype(str).agg(','.join, axis=1)

 

 

결론

이 10가지 메서드는 문자열 데이터 처리에서 필수적으로 사용됩니다. 각 메서드는 데이터 전처리, 텍스트 분석, 문자열 필터링 등 다양한 작업에서 매우 유용합니다. Pandas의 문자열 처리 기능을 잘 활용하여 데이터 분석의 품질을 높이고, 효율적인 데이터 관리를 실현해 보세요!
실무에서 자주 사용하는 방법을 숙지하면 데이터 처리의 생산성을 크게 향상시킬 수 있습니다. 추가적인 질문이나 도움이 필요하신 부분이 있다면 언제든지 댓글로 남겨주세요!

728x90
반응형