상세 컨텐츠

본문 제목

파이썬 크롤링을 통한 시집 만들기(1편)

개발/python

by IT License 2019. 7. 18. 14:43

본문

파이썬 크롤링 공부를 할겸해서 시집을 만들어 보자.

최종 목표는 아래 그림처럼 ppt 파일에 이미지와 시를 배치해서 넣는 문서를 만드는 것이다.

이를 위해서는 크게 3가지 일(프로그램)을 해야한다.

1. 시가 모여있는 웹사이트를 찾아 크롤링하여 시(poetry) 데이터를 가져온다.

2. 이미지를 크롤링 한다.(구글 이미지 크롤링)

3. 크롤링한 데이터를 가지고 ppt 문서를 만든다.

 

먼저 시를 가져와 보자.

아래 사이트에 가면 유명한 시 모음이 222개나 있다.

http://www.abrief.info/blog/?p=10697

 

Abrief.net » 유명한 시 모음 (222개)

 

www.abrief.info

그럼 이 시를 가져오는 코드를 짜기전에 웹사이트 구조가 어떻게 되어있는지 분석해보자.

소스보기를 해보니 ol 태그안에 내가 가져오과 하는 정보가 모두 있었다.

 

 

아래와 같이 코드를 짜기 시작함.

 

이제 a tag 링크를 링크값(시제목)을 가져오는 코드를 사용해서 각각의 시 데이터를 txt 파일로 만들어 보자.

링크된 페이지의 구조도 분석해야 한다. 분석해보면 table 태그 안에 시가 적혀 있는데 해설까지 포함되어 있어서 split(분할하기)을 하였는데 공백값등이 조금씩 달라 모두 적용되지는 않았다. 

프로그램을 실행하면 아래와 같이 각 시들이 문서로 저장된다.

불과 50여줄로 이런일을 할 수 있다니 파이썬 너무 매력적이다....

 

다음에는 이미지를 가져오는(크롤링) 코드를 만들어보자.

'개발 > python' 카테고리의 다른 글

파이썬 크롤링을 통한 시집 만들기(3편)  (0) 2019.07.19
파이썬 크롤링을 통한 시집 만들기(2편)  (0) 2019.07.18
파이썬- 컬렉션  (0) 2019.06.09
파이썬 - 문자열  (0) 2019.06.09
파이썬 연산자  (0) 2019.06.06

관련글 더보기

댓글 영역