久しぶりに書いてみる。

やっと仕事が一段落したので、平日も時間があるので、ちょこちょこ開発できそうです。

どうやったら、スキルをあげられるか、いろいろ試し中
ひとまず、意識していることは、

いろんな言語を学ぶ -->いまはruby を中心に勉強中
patch または、バグ報告をする --> まったくできていない
テストコードを書く --> rspec で学習開始
CI --> jenkins にプラグインをいれまくって遊び中
できるだけ、ツール類は日本語パッチを当てない! --> すぐに日本語化したくなるが我慢して英語に接する機会を増やす
コードをコピペしない。 --> web で調べてそのまま使えるものがあっても、写経する。(手を動かす)

Apache ManifoldCF を触ってみた。

Apache ManifoldCF -オープンソースクローラのご紹介-
http://www.rondhuit.com/manifoldcf-manifoldcf%E3%81%AE%E3%81%94%E7%B4%B9%E4%BB%8B.html

Apache ManifoldCF -セットアップ-
http://www.rondhuit.com/manifoldcf-manifoldcf%E3%82%BB%E3%83%83%E3%83%88%E3%82%A2%E3%83%83%E3%83%97.html

Apache ManifoldCF -ファイルサーバのクロール-
http://www.rondhuit.com/manifoldcf-manifoldcf%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%82%B5%E3%83%BC%E3%83%90%E3%81%AE%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%AB.html

を参考にやってみた。

簡単にできました。
Apache ManifoldCF はクローラーで、Solrとの相性が良く問題なくつながりました。
テキストや、日本語のクロールはすぐにできました。
PDFのクロールをやってみたが、うまくいかず。
次回に持越しです。

イントラネット上のクロールでしたら、これでよさそう。
ちなみに、コミッタの方は Shinichiro Abe さんという日本の方もいらっしゃるようです。

http://incubator.apache.org/connectors/index.html

コードリーディング

コードリーディング
下記の記事で気になった部分

http://www.atmarkit.co.jp/news/201002/02/code.html
ソースコードリーディングワークショップ2010を開催

以下引用

森崎氏も「まず全体のイメージをつかむ」というが、そのうえで「こういう問題があるのではないか、といった仮説を立ててレビューする視点を設定する。その中でのみ不備を考えるようにすると効率的だ」

「こうなのではないか」という自分なりの仮説や予測を立てながら読んでいることだろう。

吉岡氏は普段、テキストエディタGNU Emacsソースコードを閲覧するGUIツールのCscope、GNUデバッガ(GDB)を併用しており、「ダイナミックな視点」――動的理解については、これらを有効に使っているという。

「コードはお尻から読む」

nutch でクローリング

http://wiki.apache.org/nutch/NutchTutorial
を参考に

bin/nutch crawl urls -dir crawl -depth 1 -topN 1

でやってみた。
クローリングは、PCの性能の限界もあるので、絞ってやろうかと思います。

あとは、小規模サイトは気をつけよう。
http://slashdot.jp/submission/41605/HP