2007年11月23日金曜日

不正なURLやアクセス時にエラーが返されるURLへの対処

クローラには次のような機能が必要になるようです.

クローリングの最中に,不正なURLやアクセス時にエラーが返されるURLに遭遇した場合,それらを無視する.

http://blog.japan.cnet.com/inoue/archives/001201.html

2007年11月19日月曜日

IMEの正式名称

コンピュータに文字入力をするプログラムを IME と呼びます.

前々から IME の正式名称を

Input Method Environment

だと思っていたのですが,どうも間違っていたようです.

ひょんなことから先程 e-Words で IME を検索してみると,

Input Method Editor

でした.日本語に訳すとどうなるんだろう?

2007年11月10日土曜日

KOF2007

KOF2007に行ってきました.

Squeakの講演とOLPC(本当の名称は2文字だったけど,忘れてしまいました)の実物を見るのが目的です.

講演のほうは,OLPCプロジェクトのお話と,Squeak Etoysのデモでした.
プロジェクトやEtoysの思想にふれることができて大変良かったです.
Etoysを中学校の授業で利用したお話などもあったのですが,
中学生のプログラミング能力はなかなか侮り難いものがありました.

OLPCのほうは,思いのほか多機能なPCでぜひとも1台入手したいと思いました.
実際に触ったのですが,少なくともFirefoxはさくさくと動いてました.
OSはFedoraとのことです.

あと,最近(私が,世間もそうですけど)注目しているRubyの勉強会をしている団体の方とお話ししました.新人さんウエルカムということなので,行ってみようかなという気になりました.

2007年11月5日月曜日

ロボット規約

ロボット規約(この名前であっているかどうかは不明です)に準拠したクローラに対しては,次の二つの方法で管理下のWebページへの訪問の可否を指示できるそうです.

  1. Robots Exclusion Protocol
  2. Robots META tag
1の方法は,Webサイトのルートに置いたrobots.txtでクローラに指示を与えるものです.一方,2の方法は,HTMLのmeta要素を使ってクローラに指示を与えるものです.詳しくは,以下のURLのページで説明されています.

http://www.robotstxt.org/wc/robots.html