2024. 9. 20. 12:26ㆍ1. Data Analyst/1-1. Python
데이터 분석에서 문자열 데이터는 매우 중요합니다. 사용자 입력, 로그 파일, 텍스트 데이터 등 다양한 형식의 문자열을 처리해야 하는 경우가 많습니다. Pandas는 문자열 데이터를 다루는 데 강력한 도구를 제공합니다. 이번 포스트에서는 실무에서 자주 사용되는 Pandas의 문자열 관련 메서드 10가지를 소개하고, 각 메서드의 실무 사용 예시를 통해 어떻게 활용될 수 있는지 살펴보겠습니다.
1. .str.len()
사용 예시
고객의 휴대폰 번호에서 8글자 이하의 번호는 무의미하다고 보고, 8글자 이상만 필터링할 수 있습니다.
filtered_df = df[df['phone_number'].str.len() >= 8]
2. .str.lower()
사용 예시
이메일 주소를 소문자로 변환하여 중복된 이메일을 식별하고 데이터의 일관성을 유지할 수 있습니다.
python
Copy code
df['email'] = df['email'].str.lower()
3. .str.upper()
사용 예시
고객의 이름을 대문자로 변환하여 데이터베이스에 저장하고, 검색 시 대소문자 문제를 피할 수 있습니다.
python
Copy code
df['customer_name'] = df['customer_name'].str.upper()
4. .str.strip()
사용 예시
고객의 입력 데이터에서 불필요한 공백을 제거하여 잘못된 데이터가 저장되지 않도록 합니다.
python
Copy code
df['address'] = df['address'].str.strip()
5. .str.replace()
사용 예시
비즈니스에서 특정 단어(예: "Inc.")를 제거하여 회사 이름을 정리할 수 있습니다.
python
Copy code
df['company_name'] = df['company_name'].str.replace(' Inc.', '')
사용 예시
특정 제품이 포함된 주문만 필터링하여 판매 분석을 진행할 수 있습니다.
python
Copy code
filtered_orders = df[df['product_name'].str.contains('Chicken')]
사용 예시
특정 지역의 고객 데이터를 추출하기 위해 고객 주소가 특정 지역 코드로 시작하는지 확인합니다.
python
Copy code
filtered_df = df[df['address'].str.startswith('NY')]
사용 예시
특정 형식의 파일만 처리하기 위해, 파일명이 '.csv'로 끝나는 파일만 필터링할 수 있습니다.
python
Copy code
filtered_files = df[df['file_name'].str.endswith('.csv')]
9. .str.split()
사용 예시
고객의 전체 이름을 성과 이름으로 분리하여 분석에 활용할 수 있습니다.
python
Copy code
df[['first_name', 'last_name']] = df['full_name'].str.split(' ', expand=True)
10. .str.join()
사용 예시
여러 개의 태그를 하나의 문자열로 결합하여 데이터베이스에 저장하거나 출력할 수 있습니다.
python
Copy code
df['tags'] = df[['tag1', 'tag2', 'tag3']].astype(str).agg(','.join, axis=1)
결론
이 10가지 메서드는 문자열 데이터 처리에서 필수적으로 사용됩니다. 각 메서드는 데이터 전처리, 텍스트 분석, 문자열 필터링 등 다양한 작업에서 매우 유용합니다. Pandas의 문자열 처리 기능을 잘 활용하여 데이터 분석의 품질을 높이고, 효율적인 데이터 관리를 실현해 보세요!
실무에서 자주 사용하는 방법을 숙지하면 데이터 처리의 생산성을 크게 향상시킬 수 있습니다. 추가적인 질문이나 도움이 필요하신 부분이 있다면 언제든지 댓글로 남겨주세요!
'1. Data Analyst > 1-1. Python' 카테고리의 다른 글
파이썬 실무 - 각 지점의 월별 최고 매출액 필터링 (0) | 2024.11.08 |
---|---|
Pandas의 filter() 메서드: 그룹화 후 조건으로 필터링하기 (0) | 2024.09.20 |
Python 실무 - 파이썬 그룹 기준으로 데이터 통일하기 (0) | 2024.08.30 |
[python 실무] PDF 이미지(PNG)로 전환 - 1초컷 (0) | 2024.07.11 |
[Python 실무] 하위컬럼 불러오기 (0) | 2024.06.29 |