久しぶりに書いてみる。
やっと仕事が一段落したので、平日も時間があるので、ちょこちょこ開発できそうです。
どうやったら、スキルをあげられるか、いろいろ試し中
ひとまず、意識していることは、
いろんな言語を学ぶ -->いまはruby を中心に勉強中
patch または、バグ報告をする --> まったくできていない
テストコードを書く --> rspec で学習開始
CI --> jenkins にプラグインをいれまくって遊び中
できるだけ、ツール類は日本語パッチを当てない! --> すぐに日本語化したくなるが我慢して英語に接する機会を増やす
コードをコピペしない。 --> web で調べてそのまま使えるものがあっても、写経する。(手を動かす)
Apache ManifoldCF を触ってみた。
Apache ManifoldCF -オープンソースクローラのご紹介-
http://www.rondhuit.com/manifoldcf-manifoldcf%E3%81%AE%E3%81%94%E7%B4%B9%E4%BB%8B.html
Apache ManifoldCF -セットアップ-
http://www.rondhuit.com/manifoldcf-manifoldcf%E3%82%BB%E3%83%83%E3%83%88%E3%82%A2%E3%83%83%E3%83%97.html
Apache ManifoldCF -ファイルサーバのクロール-
http://www.rondhuit.com/manifoldcf-manifoldcf%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%82%B5%E3%83%BC%E3%83%90%E3%81%AE%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%AB.html
を参考にやってみた。
簡単にできました。
Apache ManifoldCF はクローラーで、Solrとの相性が良く問題なくつながりました。
テキストや、日本語のクロールはすぐにできました。
PDFのクロールをやってみたが、うまくいかず。
次回に持越しです。
イントラネット上のクロールでしたら、これでよさそう。
ちなみに、コミッタの方は Shinichiro Abe さんという日本の方もいらっしゃるようです。
後ろ足の前ももが痛い
後ろ足の前ももが痛い
なぜだ?金曜日あたりから徐々に痛くなってきている。
今週一週間様子をみよう。。ビョウインハキライ。
コードリーディング
コードリーディング
下記の記事で気になった部分
http://www.atmarkit.co.jp/news/201002/02/code.html
ソースコードリーディングワークショップ2010を開催
以下引用
森崎氏も「まず全体のイメージをつかむ」というが、そのうえで「こういう問題があるのではないか、といった仮説を立ててレビューする視点を設定する。その中でのみ不備を考えるようにすると効率的だ」
「こうなのではないか」という自分なりの仮説や予測を立てながら読んでいることだろう。
吉岡氏は普段、テキストエディタのGNU Emacs、ソースコードを閲覧するGUIツールのCscope、GNUデバッガ(GDB)を併用しており、「ダイナミックな視点」――動的理解については、これらを有効に使っているという。
「コードはお尻から読む」
nutch でクローリング
http://wiki.apache.org/nutch/NutchTutorial
を参考に
bin/nutch crawl urls -dir crawl -depth 1 -topN 1
でやってみた。
クローリングは、PCの性能の限界もあるので、絞ってやろうかと思います。
あとは、小規模サイトは気をつけよう。
http://slashdot.jp/submission/41605/HP