The net is vast
プログラミングや、コンピュータなどの備忘録です。 主にRuby, Java, Linux, 等を扱います。アルゴリズムも扱いたいな。
21:25

Nutchを学ぶ その1

Category: By jx

まずは情報収集

Crawlerについて調べたくなったので、勉強日誌をつける。英語がからっきしだめなので、日本語の情報を探してみる。Crawlerについて調べていくと、なんとなくよさそうなものが二つ 両方ともJavaで作られていて、大規模なクローリングに向いている。どちらも日本語の情報は極端に少なく、インストールしてみたとか、動作させてみた、という情報はあるものの、しっかりとやった人は情報を公開していない。 Nutchはクローラーだけでなく、検索エンジンもついている。一方HeritrixはInternet Archiveで使われているクローラー。Heritrixは開発がすごく活発に行われているみたい。でもここは検索エンジンもついているNutchについて勉強しようと思う。名前も可愛いし。今日あたりからちゃんと勉強を初めてみる。

日本語のリンク集

Nutchについてかかれている情報へのリンクを羅列してみる。

Nutch情報ではないけどCrawler関連

 

0 comments so far.

Something to say?