2008年3月14日金曜日

情報抽出に関する論文

情報抽出に関する以下の論文についてメモしておきます(論文にはない個人的な意見も含んでいます).

張建偉, 石川佳治, 北川博之: トピックを考慮した大規模文書情報源からのレコード抽出, 情報処理学会論文誌:データベース, Vol. 48 No. SIG14 TOD35, 2007

・背景
・情報抽出の研究が重要視されている.
・様々な情報発信手段の発達→電子化されたテキスト文書が急激に増加
・テキスト文書には有用な情報が含まれているが,構造化されていないので,計算機では容易に取り扱えない
・情報抽出
・テキスト文書から有用な情報を自動的に,あるいは,半自動的に抽出する
・ブートストラッピング型が注目を浴びている
・ブートストラッピング型
・抽出パターンと抽出レコードを交互に繰り返し学習することにより,
少数のサンプルレコードから大量のレコードを抽出する手法
・従来のブートストラッピング型手法の着目点
・大量のレコードの獲得
・レコードのノイズの削減
・レコード
・一つないし複数の属性からなるデータで,各属性には同種のデータが含
まれるもの
・問題
・文書が大量にある場合,多大な処理コストがかかる.
・文書に対してタグ付けなどの前処理を行う.
・文書をスキャンする.
・単なるパターンマッチングで抽出されたレコードは,
必ずしもユーザが興味のあるトピックと合致しない
・目的
・構造化されたレコード構造の情報を抽出する
・抽出されたレコードの集合は一種のデータベースと考えられ,既存のデー
  タベースとの統合など,様々な形で応用することが可能となる.
・提案
・ユーザの意図にあった情報を効率よく抽出するためのレコード抽出法
・少ない処理コストで早くレコードを獲得する
・ユーザがほしいレコードを獲得する
・ユーザの意図に適合した情報を含んでいる可能性の高い文書群を特定し,
選択された文書を優先的にレコード抽出の対象とする.
・レコードにノイズが含まれているかどうかだけでなく,
ユーザの意図に合致するかどうかも考慮する.
・情報抽出研究の分類
・構造に基づくウェブ抽出手法
単一のページから,あるいは構造が類似するページから情報を抽出する
・ブートストラッピング型
・トピック主導型
 ・あらかじめ欲しいトピックを与えて,そのトピックに合致するページを
重点的に収集する.

0 件のコメント: