2008年3月10日月曜日

更新クローラに関する論文

以下の論文に関してメモしておきます(論文に記述されていない個人的な意見も含んでいます).

田村 孝之, 喜連川 優: 大規模Webアーカイブのための更新クローラの設計と実装, 日本データベース学会 Letters, Vol. 6, No. 1, pp. 173-176, 2007

・クローラの分類
・一括クローラ(batch crawler)
・更新クローラ(incremental crawler)
・クローラの目的
・Webの大域的構造と時間変化の分析を主眼とするWebアーカイブの
収集
・社会知の抽出に使用
・クローラの要件
・網羅性と時間分解能を両立することが求められる
・更新クローラが不可欠<-網羅性も高まる<-時間分解能が高まる
・問題
・網羅性より再現性が重視されている.
・網羅性や時間分解能を向上させる試みもあるが,誤判定の問題が生
じている.
・スケジューリングする際に,アクセス先の状態が考慮に入れられて
いない.
・スケジューリングができても,リソースの状態により,そのとおり
にいかないケースがある.
・リソースは,クローラを動作させているマシンやネットワークだけ
でない.
・アクセス先のサーバの負荷等も影響する
・先行研究
・既出のWebアーカイブプロジェクト
・網羅性より,再現性(スクリプトやプラグインの動作)を重視し
ている
・網羅的に収集しているプロジェクトもある
・コンテンツの入手を外部に依存しているため,時間分解能に問題
・先行研究1
・WebサイトやWebページ群を単位として更新の有無を推定
・誤収集,収集漏れ
・提案
・上記の問題を解決するために,アクセス先のWebサーバの負荷状態
を考慮しながら,Webページの更新頻度に基づくアクセス
スケジュールリングを行う方式

0 件のコメント: