Nutchとかいう化物クローラーを使いこなしたい ーNutch+MongoDB+ElasticSearch+Kibana-
Nutch
お手軽にWebクローラーができる
Nutch+MongoDB+ElasticSearch+Kibanaでしているけど(環境は先輩に構築してもらった。)、細かな調整ができない。
一応参考ページはここ。
Nutch自体のドキュメントや、用例も少なく、なかなか進まない。
現在は、
ava.lang.IllegalArgumentException: can't serialize class org.apache.avro.util.Utf8 at org.bson.BasicBSONEncoder._putObjectField(BasicBSONEncoder.java:284) at org.bson.BasicBSONEncoder.putObject(BasicBSONEncoder.java:185) at org.bson.BasicBSONEncoder.putObject(BasicBSONEncoder.java:131) at com.mongodb.DefaultDBEncoder.writeObject(DefaultDBEncoder.java:33) at com.mongodb.OutMessage.putObject(OutMessage.java:289)
なるものに苦しめられている。
Apatch Goraのバージョンの問題で0.5から0.6に変えると直るらしい。 パッチ当ててみたけど、どうにもならず。。。 パッチはここからとれる。