2010年11月3日水曜日

教科書コーパスを用いた日本語テキストの難易度推定

読解支援に関係しそうな論文[1]を読んだので,メモしておきます.

本論文は,円滑な情報伝達を実現することを目的として,日本語テキストを対象とした難易度推定システムを提案している.難易度推定の手法には,文字ユニグラムを言語モデルとした多項ナイーブベイズ分類を使用する.そして,その言語モデルの構築には,小学校から大学までの英語を除く科目のテキストからなる規準コーパスを使用する.本システムを交差検定実験により評価した結果,所与の難易度と推定した難易度との間で非常に高い相関を示すことが分かった.

注目フレーズ
  • テキストの書き手に「難しさの客観的評価」を提供することは,円滑な情報伝達を実現するための計算機支援の一形態となる.
  • 英語に対しては1920年代から,日本語に対しては1940年代から行われている.
  • 英語の難易度算定公式
    • Fresch Reading Ease
    • Kincaid Grade Level
    • 読解教材の難易度推定などに広く用いられている.
  • 日本語の難易度算定公式
    • 立石らの手法[2]
    • 川村の手法[3]
    • 柴崎らの手法[4]
    • 実用にいたっていない
  • 英語テキストの難易度推定手法
    • Collins-Thompsonらの手法[5]

[1] 近藤 陽介, 松吉 俊, 佐藤 理史: 教科書コーパスを用いた日本語テキストの難易度推定, 言語処理学会第14回年次大会発表論文集, pp. 1113-1116, 2008-03
[2] 立石 由佳, 小野 芳彦, 山田 尚勇: 日本文の読みやすさの評価式, 情報処理学会研究報告, Vol. 1988, No. 25, pp. 1-8, 1988-05
[3] 川村 よし子: 語彙チェッカーを用いた読解テキストの分析, 早稲田大学日本語教育センター講座日本語教育, 第34分冊, pp. 1-22, 1998
[4] 柴崎 秀子, 沢井 康孝: 国語教科書コーパスを応用した日本語リーダビリティー構築のための基礎研究, 電子情報通信学会技術報告, Vol. 2007, No. 32, pp. 19-24, 2007-10
[5] Kevyn Collins-Thompson, Jamie Callan: Predicting Reading Difficulty with Statistical Language Models, Journal of the American Society for Information Science and Technology, Vol. 56, No. 13, pp. 1448-1462, 2005-11

0 件のコメント: