hamayuzinの日記

エンジニアとかデータサイエンティストとかやってます。あの時 あれやってたな的な備忘録にできれば。

Nutchとかいう化物クローラーを使いこなしたい ーNutch+MongoDB+ElasticSearch+Kibana-

Nutch

お手軽にWebクローラーができる

Nutch+MongoDB+ElasticSearch+Kibanaでしているけど(環境は先輩に構築してもらった。)、細かな調整ができない。

一応参考ページはここ。

www.aossama.com

Nutch自体のドキュメントや、用例も少なく、なかなか進まない。

現在は、

ava.lang.IllegalArgumentException: can't serialize class org.apache.avro.util.Utf8
at org.bson.BasicBSONEncoder._putObjectField(BasicBSONEncoder.java:284)
at org.bson.BasicBSONEncoder.putObject(BasicBSONEncoder.java:185)
at org.bson.BasicBSONEncoder.putObject(BasicBSONEncoder.java:131)
at com.mongodb.DefaultDBEncoder.writeObject(DefaultDBEncoder.java:33)
at com.mongodb.OutMessage.putObject(OutMessage.java:289)

なるものに苦しめられている。

Apatch Goraのバージョンの問題で0.5から0.6に変えると直るらしい。 パッチ当ててみたけど、どうにもならず。。。 パッチはここからとれる。

[NUTCH-1946] Upgrade to Gora 0.6.1 - ASF JIRA