
이번엔 크롤링 + 간단한 데이터 분석까지 진행해보고자 한다.

크롤링을 한다는 것은 사이트에서 정보를 수집한다는 뜻이다. 여행사이트에서 고객의 리뷰를 크롤링하는 것은
새로운 상품 개발 및 기존의 상품의 보완점을 찾을 수 있다. 또한 크롤링한 자료를 통하여 csv파일을 만들고 분석을
진행할수도 있다. 이번 과정을 통해 수집부터 분석까지 간단하게 진행하였는데 전반적인 틀을 만들어 놓으면 추후
수정만 하여 다른 사이트도 사용할 수 있어 확실히 배우는게 중요한 것 같다

사이트가 동적페이지로 이루어져서 셀레니움을 이용하여 크롤링을 진행하였다.
따로 크롬드라이버를 다운받지 않고 자동으로 가져올 수 있게 작성하였고 드라이버를 통해 동적페이지를 가져온다.
중간에 sleep을 사용한건 실행시간을 확보하기 위해서이다. 적절하게 설정하지 않으면 에러가 발생한다.
충분한 시간 확보는 필수!

크롤링을 진행할 때 개발자 도구를 통해 가져올 정보를 확인할 수 있다. 개발자 도구로 진입하는 방법은 크게 두 가지이다.
1. 검수하고자 하는 웹사이트에 접속해서 우클릭, 검사메뉴로 진입
2. 단축키를 사용, 맥은 <command+option+I>, 윈도우는 <ctrl+shift+I>나 를 누르면 해당 모드로 진입, F12를 눌러도 진입이 가능하다

크롤링한 정보는 pandas를 이용하여 csv로 저장하여 그래프로 나타낼 수 있다. 사진에 보이는 정보는 투어사이트에서 가져온 리뷰에 대한 정보이다. 어느 점이 좋은지, 어느 연령대에 인기가 있는지 크롤링을 통해 정보를 가져오면 모두 시각화가 가능하다. 지금 보여주는 그래프는 아직 초기 형태이다. 여기서 여러가지 색상과 x값과 y값을 변환시키면 특정 분석을
시각적으로 멋있게 보여줄 수 있다.

특정 여행상품에 대한 값으로 x값엔 나이, y값엔 평균 평점을 담았다. 위의 그래프와 비교해 봤을때 훨씬 시각적으로 보기좋고 유용한 정보를 담고 있다. 분석은 개인의 주관이 들어감으로 함부로 판단할 수는 없지만 확실한건 10대,20대의 평점과 60,70대 평점이 높은 것에서 의미를 찾아야 된다는 것이다. 다른 지표들과 비교해서 결론을 낼 수 있으므로 이렇게 원하는 정보를 시각화하는 것은 중요하다.


본 강의의 장점 중 하나는 오류를 일부러 계속 보여줌으로서 다양한 오류에 대처할 수 있는 방법을 알려주는 것이다.
코드를 치다보면 다양한 오류를 마주하고 구글링 또는 chatgpt를 통해 해결방안을 찾는다. 하지만 미리 몇가지 오류를
알아감으로써 시행착오를 상당히 줄일 수 있었다. 이번에 들은 강의도 상당히 만족스럽다. 하지만 가장 중요한 건
복습이기에 기한안에 다시 한 번 들어볼 예정이다!
들은 강의의 링크는 다음과 같다: https://mcode.co.kr/video/list2?viewMode=view&idx=85
'IT > 데이터분석 도전하기' 카테고리의 다른 글
| [특강] 메타코드M 10년차 데이터분석가 서류 통과율 높이는 전략 (0) | 2024.05.09 |
|---|---|
| [데이터분석] 메타코드M SQL과 Python 연결해서 데이터분석 해보기 (0) | 2024.05.09 |
| [크롤링] 메타코드M 웹 크롤링 기초 강의_크롤링 입문, 뉴스 크롤링 (0) | 2024.05.05 |
| [파이널 팀 프로젝트] 로고 제작 (0) | 2024.04.02 |
| [데이터분석] 구성한 데이터 셋을 확인해보자 (0) | 2024.03.29 |