2010年8月26日木曜日

Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム

読解支援に関する論文[1]を読んだので,メモしておきます.

本論文では,第2言語で記されたWebページの読解を支援するために,Webページ内にある単語に対して語義を付与するシステムを提案している.単語に語義を付与するかどうかは,単語クリックログを元に項目反応理論を用いて推定したユーザの語彙力と単語の難易度を比較して判定する.これらの推定には,独自に改良したラッシュモデルと,逐次学習法であるSGDを用いている.本システムで用いた改良ラッシュモデルとSGDの効果を独自に用意したテストセットで測定したところ,前者については5%程度の判定精度の向上が確認された.また,後者についてはバッチ学習法と同等の判定精度を維持できることが確認された.

注目フレーズ
  • 項目反応理論
  • ラッシュモデル
  • SGD(Stochastic Gradient Descent)
  • 第2言語のWebページを読むときには,非既知語が読解を妨げる原因の一つとなる.
  • 語義注釈システム
    • 第2言語のWebページには非既知語が多く含まれるという問題に対処するために提案されてきた.
    • 単語クリックログにユーザの非既知語が蓄積される.
  • POP辞書
    • マウスオーバーした非既知語の語義をポップアップで表示している.
  • popIn
    • ドラッグ操作で選択した非既知語の語義をWebページ中に埋め込む.
  • 単語クリックログ
    • ユーザがクリックした単語を記録したもの
    • 読解の障害になる非既知語のリスト
    • 既存の語義注釈システムでは活用されてこなかった.
    • これを解析することで,非既知語を予測し,予め語義を付与すれば,読解が容易になると考えられる.
  • Daleの尺度
  • Paribakht and Wescheの尺度
[1] 江原 遥, 二宮 崇, 中川 裕志: Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム, 情報処理学会研究報告, Vol. 2009, No. 3, pp.1-7, 2009-09

0 件のコメント: