2017. 1. 10. 11:24 독서 영역/Hanbit Readers
728x90


웹 크롤링이 무엇인지 궁금하게 만든 도서!


나는 보통 도서를 처음 접하게 되면 가장 먼저 뒷표지를 본다.

뒷표지를 보면 이 도서의 핵심 요약이 표현되어 있는 경우가 대부분이기 때문이다.


"파이썬으로 웹 크롤러 만들기(Web Scraping with Python)"도서를 서점에 가서 집어 들고 뒷표지를 보았다.

뒷표지의 내용을 보고 바로 이 도서를 선택하게 되었다. 

<복잡 다양한 웹에서 우아하게 데이터 수집하기> 참으로 멋진 표현이다.


나에게 웹 크롤링에 대한 관심을 불러일으킨 책으로써 무언가 이 도서를 통하여 할 수 있을 것 만 같았다.


이 도서를 통하여 얻을 수 있었던 내용들은 아래와 같다.


1. 웹 크롤링이 무엇이며 왜 써야 하는지를 알 수 있었다.

2. 크롤링의 기본 동작 과정을 알 수 있었다.

3. 기초부터 심화까지 조금씩 난이도를 높혀가면서 크롤링을 해볼 수 있었다.


챕터5 데이터 저장 부분중 파일저장 부분은 향후에도 많이 사용할 수 있는 부분으로 생각되었다.

다만 본문에서도 경고하고 있듯이 바이러스나 멀웨어등이 포함된 파일들이 존재할 수 있으니 각별히 조심하라고 가이드하고 있다.

또한 파이썬으로 메일 전송할 수 있다는 부분도 흥미로웠다. 조금만 응용하면 뭔가 멋진 툴이 나올 것 같은 예감이 든다.


챕터6의 문서 읽기 부분은 꼭 웹페이지의 내용뿐만 아니라 PDF나 DOCX같은 파일들에서도 파이썬을 이용하여 내용을 추출할 수 있음을 보여준다.

물론 추가적인 파이썬 라이브러리를 설치하여 사용해야 하지만 정말 많은 일들을 할 수 있음을 알 수 있다.


그밖에 "고급 스크레이핑"파트에 가면 더 심화된 예제들을 볼 수 있다.

이 책을 읽고난 후 느낀점이라 하면 정말 다양한 라이브러리들이 존재하여  파이썬으로 못하는 것을 없겠다? 라는 점이다. 


다시금 <복잡 다양한 웹에서 우아하게 데이터 수집하기> 이 말이 떠올랐다.

수 많은 라이브러리들을 사용하여 우아하게 데이터 수집하는 그날까지 아직 봐야할게 많은 것 같다!!




 


728x90
posted by acedon