Insight to Ptofitc [python 실무] 구글 리뷰 크롤링 #1. 데이터가 한개만 크롤링 되는 경우 해결

[python 실무] 구글 리뷰 크롤링 #1. 데이터가 한개만 크롤링 되는 경우 해결

2022. 3. 25. 21:071. Data Analyst/1-1. Python

728x90
반응형

 

  • 문제사항 : 모든 리뷰를 가져오고 싶지만 가장 첫 리뷰만 크롤링 되었다. 

 

 

 


  • 에러원인: 컨테이너 범위 잘못 지정

크롤링 할 데이터를 가져오기 전, 각 데이터를 포함하는 하나의 컨테이너를 지정해줘야 한다 (노란부분)

   : 컨테이너는 '이 유닛 기준으로 데이터 크롤링을 할꺼야~' 라는 일종의 표시라고 생각하면 된다.

 


  • 해결

 

 

 

각 리뷰의 [ ID, Date, Review_text ]를 가져오고 싶다면,

이 데이터들이 담긴 한 유닛(리뷰 하나)만 컨테이너로 지정해주면 된다.

앞에서  저지른 실수는 아래와 같이 전체를 컨테이너로 정의했기 때문이다.

 

잘못된 예

 

아래와 같이 한 유닛(리뷰 하나)만 컨테이너로 정해줘야 한다.

 

옳은 예

 

컨테이너를 변경한 결과 각각의 리뷰에서 데이터들이 잘 뽑아졌다.

 

 

 

그런데 리뷰들이 잘려서 크롤링 되었다.

 

 

위의 리뷰처럼 더보기(More) 처리를 안해줘서 생긴 현상이다.

더보기 처리 방법은 다음 글에서 다루겠다.

 

 


다음 글 이어보기

 

[Python] 구글 리뷰 크롤링 #2. 더보기 해결

문제사항 : 데이터가 완전히 크롤링 되지 않음 에러원인: '더보기(More)' 클릭 안함 해결 : 더보기(More) 코드 추가

world-insight-seeker.tistory.com

 

728x90
반응형