The net is vast
プログラミングや、コンピュータなどの備忘録です。 主にRuby, Java, Linux, 等を扱います。アルゴリズムも扱いたいな。
2:55

Nutchをやめる

By jx
Nutchを使おうと考えていたんだけど、自分の作りたいアプリケーションとNutchの相性が良くない。特定のURLのみ扱いたくて、なおかつその特定のURLが膨大な数になる。Nutchを使うと、全てのURLを設定ファイルに記述しなければ行けなくなるし、別々に処理したい。さらに、そのURLは頻繁に更新されるから、Nutchが要件にあわない。 さて、どうしようか。サイトをRailsで作ろうかと考えているから、Rubyで書いてしまうか。でも、そこにあんまり力を入れたくないのも会ってかなり躊躇してる。さてどうしたものか。。。おすすめのクローラーがあったら教えてください。
 
1:38

Nutchを学ぶ その2 Nutch-0.9の日本語化パッチを作成した

Category: By jx
Nutch 0.9をそのままDLしてきてWebインタフェースを表示しようとすると、日本語環境では表示すらもままならない。ブラウザの環境から言語情報をとってくるが、jaとjpが誤って書かれているらしく、正常に表示ができないことが原因 そこで、これらを修正するNutch 0.9用のパッチを書いた。以下のようにして、パッチを当てれば、とりあえず、日本語のUIで検索ボックスが表示出来るようになる。 ファイルはこちら
$ wget http://jirox.net/patches/nutch-0.9-ja.patch $ svn export http://svn.apache.org/repos/asf/lucene/nutch/tags/release-0.9/ nutch-0.9-ja $ cd nutch-0.9-ja $ patch -p1 -d . < ../nutch-0.9-ja.patch ant war
以上でbuild/nutch-0.9.war にwarができあがる ちなみに、以下のサイトを参考にしました Nutch - PukiWiki 感謝です。 ただし、実際の検索は日本語とおりません。一文字ずつインデックスされてしまっているので、これは対応する必要があります。それについては、まだ解決出来ていないので、後日。
 
21:25

Nutchを学ぶ その1

Category: By jx

まずは情報収集

Crawlerについて調べたくなったので、勉強日誌をつける。英語がからっきしだめなので、日本語の情報を探してみる。Crawlerについて調べていくと、なんとなくよさそうなものが二つ 両方ともJavaで作られていて、大規模なクローリングに向いている。どちらも日本語の情報は極端に少なく、インストールしてみたとか、動作させてみた、という情報はあるものの、しっかりとやった人は情報を公開していない。 Nutchはクローラーだけでなく、検索エンジンもついている。一方HeritrixはInternet Archiveで使われているクローラー。Heritrixは開発がすごく活発に行われているみたい。でもここは検索エンジンもついているNutchについて勉強しようと思う。名前も可愛いし。今日あたりからちゃんと勉強を初めてみる。

日本語のリンク集

Nutchについてかかれている情報へのリンクを羅列してみる。

Nutch情報ではないけどCrawler関連

 
11:40

Spam認定

Category: By jx

このブログは、Blogger の 利用規約に違反した可能性があるためロックされており、公開されていません。ブログを確認してロックを解除するまで、新しい投稿を公開することはできません。

このブログは、確認をリクエストしないと 20 日以内に削除されます。

このページにアクセスしようとしたら、こんな風なメッセージが表示されたよ。俺なにもしてないし、投稿二日目にこんなふうになるなんて、Bloggerはユーザに使ってほしくないんかね?せめてさ、もう少したってからにしてほしいよね。

 
22:50

心機一転Blogを始める

Category: By jx
心機一転Blogを始める。 ネットは広大だ。自分が集めたい情報だけでもGoogleで検索すると1,000,000件を軽く超える。マシン一台では到底扱えないような情報。でもそういった情報に積極的ににアクセスし、手足のように扱いたい。