본문 바로가기

node.js

node.js로 웹 스크래핑 하기(1) -cheerio

웹을 스크래핑 하는 방법은 여러가지가 있다.


수많은 언어에서 html을 파싱해서 스크랩하는 방법이 있다.

지금은 실제 프로젝트에서 사용한 node.js의 cheerio를 이용해서 파싱하는 방법을 알아보자.


첫번째로 node.js를 설치하자.

http://www.nodejs.org/ 

각자의 운영체제에 맞는것을 설치하자.


저는 맥을 이용해서 하도록 하겠습니다.

운영체제별로 거의 차이가 나지 않습니다.


node.js가 설치되었다면 패키지 매니져인 npm도 같이 설치 되었을것이다.

확인하자.



1.빈 프로젝트 생성

mkdir test

cd test

npm init

여러가지를 물어보는데 디폴트 값으로 사용하면 된다.


2.cheerio 설치

npm install cheerio --save

디펜던시를 추가해주면 앞으로 npm update를 하더라도 계속 남아있게 된다.


3.request 설치

npm install request --save


4.index.js 수정 하기






5.실행 

node index.js하면 Google라는 글을 볼것이다


다음 편에서 좀더 깊이 진행해보겠다.

그나저나 gist 짱 좋네 

'node.js' 카테고리의 다른 글

pdf 변환작업을 마치며.  (0) 2015.11.24
wiredep : node의 유용한 플러그인  (0) 2015.01.03
asset 관리  (0) 2015.01.01
node.js로 웹 스크래핑 하기(2) -cheerio  (0) 2014.11.05