간단히 오늘의 유머 게시판을 스크래핑해보는 소스를 구현해보자.
https://github.com/choiks14/scrap_ou
오유는 userAgent가 없다면 데이타를 주지 않는다. 그래서 임의의 userAgent를 준다.그리고 레퍼러도 같이 준다.
소스의 css 는 크롬의 Copy CSS path를 해주면 된다.
하지만 css path는 딱 그 엘리먼트만 가져오기 때문에 리스트를 가져올려면 css를 약간 손보면 된다.
tbody라든지 nth를 지워주면 된다.
그리고 node index.js를 해주면 링크가 나온다.
이것을 조금만 응용한다면 rss가 없는 게시판의 rss를 만들수도 있다.
다음편에서 실제 프로젝트에서 사용하고 있는 스크래핑을 살펴 보도록 하자.
'node.js' 카테고리의 다른 글
pdf 변환작업을 마치며. (0) | 2015.11.24 |
---|---|
wiredep : node의 유용한 플러그인 (0) | 2015.01.03 |
asset 관리 (0) | 2015.01.01 |
node.js로 웹 스크래핑 하기(1) -cheerio (0) | 2014.11.04 |