웹을 스크래핑 하는 방법은 여러가지가 있다.
수많은 언어에서 html을 파싱해서 스크랩하는 방법이 있다.
지금은 실제 프로젝트에서 사용한 node.js의 cheerio를 이용해서 파싱하는 방법을 알아보자.
첫번째로 node.js를 설치하자.
각자의 운영체제에 맞는것을 설치하자.
저는 맥을 이용해서 하도록 하겠습니다.
운영체제별로 거의 차이가 나지 않습니다.
node.js가 설치되었다면 패키지 매니져인 npm도 같이 설치 되었을것이다.
확인하자.
1.빈 프로젝트 생성
mkdir test
cd test
npm init
여러가지를 물어보는데 디폴트 값으로 사용하면 된다.
2.cheerio 설치
npm install cheerio --save
디펜던시를 추가해주면 앞으로 npm update를 하더라도 계속 남아있게 된다.
3.request 설치
npm install request --save
4.index.js 수정 하기
5.실행
node index.js하면 Google라는 글을 볼것이다
다음 편에서 좀더 깊이 진행해보겠다.
그나저나 gist 짱 좋네
'node.js' 카테고리의 다른 글
pdf 변환작업을 마치며. (0) | 2015.11.24 |
---|---|
wiredep : node의 유용한 플러그인 (0) | 2015.01.03 |
asset 관리 (0) | 2015.01.01 |
node.js로 웹 스크래핑 하기(2) -cheerio (0) | 2014.11.05 |