2010年8月28日土曜日

文字種による文の認知処理速度の差異

読解支援に関する論文[1]を読んだので,メモしておきます.

本論文では,日本語テキストの難易尺度の構築を目的に,日本語の文字種による表記の違いが文の読みやすさにどのように影響するかを調査している.調査では,見慣れた漢字とそうでない漢字を漢字表記と平仮名表記にした文を使って文正誤判断課題を行っている.その結果,成人の日本語母語話者が漢字を認知処理する際,漢字レベルによって負担の差があり,小学校2年と3年の配当漢字の平仮名表記と,常用漢字以外の漢字表記は負担が大きいことが示唆された.また,漢字検定4級程度の場合は,平仮名表記でも漢字表記でも大きな差は見られないことが明らかになった.

注目フレーズ
  • 難易を決定する変数は,1文の文字数または単語数,1語の音韻数など,テキストを構成する要素の中の長さが使われていることが多い.
  • 1文が長ければ長いほど認知処理に負担がかかることは認知心理学の分野で証明されている.
  • 英語のように文字種が1種類のみの言語では,文字数がそのまま文の長さに反映するが,日本語には複数の文字種が存在し,長さの決め方は簡単ではないという問題がある.
  • 眼球運動の研究では,人の眼は必ず左から右へと1文字ずつ認識していくのではなく,意味のあるかたまりでとらえることもわかっている.
  • 単語新密度
  • 漢字と平仮名がどのような割合で使用すれば読みやすいか,また,どのような漢字を使えば,あるいは使わなければ読みやすいかということは,まだ明らかではない.
  • 日本語の読みやすさを表わした公式では,変数として,文字種の中の連続する同一の文字種の相対頻度と文字種ごとの平均の長さが使われている.
  • 文字数が同じ文ならば,命題が多い文のほうが読む速度は遅い.
  • テクストの難易を決定するには,文字種だけでなく,語種,文法構造の複雑さ,命題の量,語彙密度,語彙の難易など様々な要因が考えられる.
  • 同じ漢字を音読み群の漢字の中では音読みし,訓読み群の漢字の中では訓読みした.

[1] 柴崎 秀子: 文字種による文の認知処理速度の差異―日本語テクストの難易尺度構築のための基礎研究―, 実験音声学・言語学研究, Vol. 2, No. 18-31, 2010

2010年8月27日金曜日

バブルブラウザ:子供向けWebブラウザの取り組み

読解支援に関する論文[1]を読んだので,メモしておきます.

本論文は,子供向けの学びの場としてWebを有効活用するためのWebブラウザについて報告している.本ブラウザは,子供の嗜好や特性を考慮して,一般のWebページを子供向けページに要約する.子供向けページでは,一般のWebページに含まれるトピックを海中に漂う泡で,トピックの詳細を絵本で表現している.本ブラウザの有効性を評価するために,ひらがなブラウザ(一般向けのWebページ中の漢字を学年に応じたひらがなに変換して提示するブラウザ)を比較対象として,理解度と好評度を測定している.その結果,両方においてひながらブラウザより高い評価が得られた.

注目フレーズ
  • インターネットの利用開始の低年齢化が進んでいる.
    • 総務省による2007年の統計によると,6歳から12歳の子供の7割近くが日常的にインターネットを利用している.
    • gooリサーチによる2007年の調査によると,インターネットを利用し始める年連は,未就学者が3割を超えている.
  • 現状では,莫大な情報を持つ一般のWebページを,子供に対して,分かりやすく,楽しく提示するような仕組みは確立されていない.
    • 子供向けのWebサイトやWebページ提示ツールが多く構築・開発されるようになってきた.
    • 子供向けWebサイトはWeb全体から見るとほんのわずかな分量しか存在しない.
    • Webページ提示ツールは,有害情報のフィルタリングなど,安全性の実現を目的としている.
  • インターネットが学ぶ場として有効活用されていない.
  • 情報閲覧・学習における子供の特徴
    • 見せたい情報のみを与えた方が理解は深くなる.
    • 楽しい経験は学習に繋がる
    • キャラクタなどのイラスト中心のWebページに興味を持つ.
    • 難しい漢字,長い文章のWebページを苦手とする.
    • 何がどのカテゴリに属しているのかを理解するのは苦手だが,具体例があれば理解できる.

[1] 原 隆浩: バブルブラウザ:子供向けWebブラウザの取り組み―手探りの研究開始から手応えをつかむまで―, 情報処理学会誌, Vol. 51, No. 1, pp. 5-8, 2010-01

ブラウザのフォントサイズをJavaScriptで取得する方法

ブラウザのフォントサイズをJavaScriptで取得する方法をメモしておきます.

まずは,空白1文字を内容とするspan要素を表示するページに仕込んでおきます.
そして,その要素のid属性に適当な名称を,style属性に「visibility: hidden;」を設定します.
あとは,スクリプト内で,その要素のoffsetHeightの値を取得すれば,ブラウザのフォントサイズを取得できます.
具体的なコードは以下のとおりです.

<html>
<head>
<script type="text/javascript">
<!--
console.log(document.getElementById("font").offsetHeight);
//-->
</script>
</head>
<body>
<span id="font" style="visibility: hidden;">&nbsp;</span>
</body>
</html>


[1] JavaScriptでブラウザのフォントサイズを検出する方法

2010年8月26日木曜日

Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム

読解支援に関する論文[1]を読んだので,メモしておきます.

本論文では,第2言語で記されたWebページの読解を支援するために,Webページ内にある単語に対して語義を付与するシステムを提案している.単語に語義を付与するかどうかは,単語クリックログを元に項目反応理論を用いて推定したユーザの語彙力と単語の難易度を比較して判定する.これらの推定には,独自に改良したラッシュモデルと,逐次学習法であるSGDを用いている.本システムで用いた改良ラッシュモデルとSGDの効果を独自に用意したテストセットで測定したところ,前者については5%程度の判定精度の向上が確認された.また,後者についてはバッチ学習法と同等の判定精度を維持できることが確認された.

注目フレーズ
  • 項目反応理論
  • ラッシュモデル
  • SGD(Stochastic Gradient Descent)
  • 第2言語のWebページを読むときには,非既知語が読解を妨げる原因の一つとなる.
  • 語義注釈システム
    • 第2言語のWebページには非既知語が多く含まれるという問題に対処するために提案されてきた.
    • 単語クリックログにユーザの非既知語が蓄積される.
  • POP辞書
    • マウスオーバーした非既知語の語義をポップアップで表示している.
  • popIn
    • ドラッグ操作で選択した非既知語の語義をWebページ中に埋め込む.
  • 単語クリックログ
    • ユーザがクリックした単語を記録したもの
    • 読解の障害になる非既知語のリスト
    • 既存の語義注釈システムでは活用されてこなかった.
    • これを解析することで,非既知語を予測し,予め語義を付与すれば,読解が容易になると考えられる.
  • Daleの尺度
  • Paribakht and Wescheの尺度
[1] 江原 遥, 二宮 崇, 中川 裕志: Web文書中の単語クリックログの解析から未知単語を予測する語義注釈システム, 情報処理学会研究報告, Vol. 2009, No. 3, pp.1-7, 2009-09

2010年8月24日火曜日

クラスパスワイルドカードを用いたjavacコマンドでのトラブル

Cygwin上でjavacコマンドを実行する際にクラスパスワイルドカードを使うとコンパイルできないというトラブルにあいました.コマンドラインに入力した内容は次のようなものです.

javac -cp "lib/*" src/*.java

Windowsのコマンドプロンプトで上記のコマンドを実行すると,エラーで中断せず無事にコンパイルされます.しかし,Cygwinで実行すると,失敗するのです.自分の知識不足が原因のような気がしますが,思いついたので,アスタリスクの後にセミコロンを付けて実行すると,コンパイルされるようになりました.具体的には,次のような感じです.

javac -cp "lib/*;" src/*.java

セミコロンがない状態では,ワイルドカードがシェルに展開されているような感じです.

2010年8月22日日曜日

機械学習による自動辞書引きを利用した英文の読解支援システム

読解支援に関する論文[1]を読んだので,メモしておきます.

本論文では,英文読解を支援するために,自動的に辞書を引いて語義のアノテーションを行うシステムを提案している.本システムでは,二値分類を行う識別器であるRBFカーネルを使ったSVMを用いて,ユーザが語義を知っているかどうかを判定している.識別器の学習に用いる素性の組み合わせに対して,判定精度と学習データ量の関係を調査した結果,100語程度語彙の有無を調査すれば,80%の精度でそのユーザの語彙の有無を判定することが可能であること分かった.また,CAVOCAシステムのユーザの語彙に関するデータのみ用いても,判定精度が向上することが分かった.

注目フレーズ
  • 英語学習者の英文読解を支援する方法として語義のアノテーションが有効であることは,CALL分野において示唆されてきた.
  • CALL分野における語義のアノテーションに関する研究では,アノテーションの教育効果を確認することに焦点が当てられている.
  • 英語学習者のレベルに応じて自動的に語義のアノテーションを行うシステムの研究は少ない
  • マウスカーソルでテキスト中の単語を選択することにより辞書を自動的に引く方法がある.
    • 自動的に語義のアノテーションを与える方法
    • ユーザは常にコンピュータを必要とする.
    • 紙に印刷した場合には利用できない.
  • iKnow→smart.fm
  • SVL単語難易度→レベル別語彙リストSVL12000
  • Googleコーパス
  • コンピュータ支援語彙習得, CAVOCA, Computer Assisted VOCabulary Acquisition
    • 語学学習者が一定期間にできるだけ多くの語彙を学習することが目的
    • 語学学習者の忘却を考慮しながら単語を繰り返し提示し,語彙の習得を促すシステム
  • 英語力の低いグループでは,辞書を使用した学生のほうが,辞書を使用しなかった学生と比較して優位に高い文章の理解度を示した一方,英語力の高いグループでは,有意な差は見られなかった.
[1] 江原 遥, 二宮 崇, 中川 裕志: 機械学習による自動辞書引きを利用した英文の読解支援システム, 言語処理学会第15回年次大会発表論文集, pp. 885-888, 2009-03

2010年8月10日火曜日

文体と難易度を制御可能な日本語機能表現の言い換え

言い換えに関する論文[1]を読んだので,メモしておきます.

本論文では,状況に合わせて日本語表現を幅広く言い換えることを目的に,難易度と文体の制御が可能な日本語機能表現の言い換え手法を提案している.本手法を使えば,ある機能表現から,所与の文体と難易度に該当し,意味的に等価な機能表現すべてを列挙することができる.本手法を実装して行ったオープンテストでは,入力文節の79%に対して,適切な代替表現を生成できる.

注目フレーズ
  • 言い換えとは,ある言語表現を意味が等価な別の言語表現に変換する処理のことである.
  • 日本語表現の言い換えは,内容表現に関する研究がほとんどであり,機能表現に関する研究は著しく少ない.
  • ほとんどすべての文には,1つ以上の機能表現が含まれているので,日本語表現を幅広く言い換えるためには,内容表現だけでなく,機能表現も言い換えることが重要である.
  • 日本語の機能表現が持つ特徴の一つは,形態的異形(常体,敬体,口語体,堅い文体)を持つことである.
  • 提案済みのシステムでは機能表現の文体を制御する機構を持っていない.
  • 文章読解支援では,機能表現を言い換えるとき,言い換え先の機能表現の難易度を制御することが求められる.
  • やさしい機能表現は,複数の意味を持つ傾向があるので,必要以上にやさしく言い換えた場合,生成された言語表現が意味的に曖昧になってしまう恐れがある.
  • 提案済みのシステムは,難易度指定に応じて言い換えを行うことができない.
[1] 松吉 俊, 佐藤 理史: 文体と難易度を制御可能な日本語機能表現の言い換え, 自然言語処理, Vol. 15, No. 2, pp. 75-99, 2008-04

2010年8月9日月曜日

学習者の理解度に対応した適応型eラーニングシステムの考察

eラーニングに関する文献[1]を読んだので,メモしておきます.

本論文では,一方的なコンテンツ配信に起因する動機低下や学習中断という問題を改善するために,学習者の理解度に適応して学習課題を提示する手法を提案している.本手法では,学習コンテンツをアセットとして,アセスメントをSCOとして作成し,これをSCORM 2004で導入されたトラッキングモデルと連携させることで,学習の進行を制御する.アセスメントは,IRTに基づいたテストで実施される.学習者へのフィードバックは,誤答した項目を再学習するためのコンテンツや再評価するためのコンテンツを提示することで行われる.

注目フレーズ
  • eラーニングは多様なニーズを持った学習者の参加を前提としており,システムへの要求も多様化する.そのようなニーズに柔軟に応えていかなければ,学習者を継続的に学習に参加させることが困難となる.
  • 現行のeラーニングシステムや標準化技術では,学習者の習熟度状態の把握がきめ細かくできているとは言えず,一方的なコンテンツ配信にとどまっているのが現状である.そのため,学習者のモチベーション低下や学習中断という事態が多く発生している.
  • SCORM
  • eラーニングにおける教育的アセスメントの要件
    • 習熟度の絶対評価ができること
    • 少ないテスト項目や短時間で実施できること
    • 機密性が高いこと
[1] 延原 哲也, 小山 嘉紀, 三宅 新二, 庄司 成臣, 劉 渤江, 横田 一正: 学習者の理解度に対応した適応型eラーニングシステムの考察, 電子情報通信学会技術研究報告, Vol. 104, No. 178, pp. 7-12, 2004

2010年8月8日日曜日

Exploring ESL Learner's Use of Hype-rmedia Reading Glosses

eラーニングに関する文献[1]を読んだので,メモしておきます.

本論文では,第2言語学習者とハイパーメディア文書との相互作用を究明することを目的として,学習者がそれを閲覧する時にどの種類の注釈を一番好むのか,および,レベルの異なる学習者間で注釈の使用に相違が生じるかどうかを調査している.その結果,中間グループと上位グループでは,文書との相互作用および読書能力に差があることが判明した.具体的には,次の通りである.(1)中間グループは,上位グループよりすべての種類の注釈を多く参照したが,その時間は必ずしも長くなかった.(2)両方のグループともトピックレベルの注釈をワードレベルの注釈より多く参照した.(3)トピックレベルの注釈では,テキストとビデオが,ワードレベルの注釈では,語義が最もよく参照された.(4)注釈の参照回数と参照時間の間に密接な関係は見られなかった.(5)被験者は,画像と映像の注釈を興味深いと考えている.また,文章の理解には,語義が非常に有益であると考えている.(6)被験者は,文章の理解に際にトピックベースの注釈が有効に働いているとは感じていない.(7)中間グループは,上位グループより注釈への参照時間が長い.

注目フレーズ
  • Reading hypermedia documents poses certain challenges for readers.
  • Reading hypermedia documents requires additional reading skills.
    • Interpreting visual images, video, charts and tables
    • Navigating through complex and continually changing systems of information
    • Making decisions concerning when to read a definition of an explanation
    • Distinguishing relevant and reliable information
    • Making connections between discrete bodies of information and their relative importances
    • Monitoring their reading in order not to become distracted from their reading purpose
  • Hypermedia glosses may function to highlight or clarify important points or simply to provide lexical or syntactic information.
    • Their focus may be textual or extra-textual.
    • They may be provided within the body of text or outside the text.
    • They may come in the form of text, images, sound recordings or videos.
  • Glossing is particularly useful in second language reading(L2 reading).
  • 第2言語学習者の読書に注釈が有効かどうか,あるいは,どのような注釈が有効かどうかについて十分な解答が得られていない.
  • 学習者の読書方略を追跡探求するのにトラッキングツールが使われている.
  • オンラインの辞書を使う人のほうが,冊子の辞書を使う人より多く辞書引きをする.
  • 辞書と注釈が使う人のほうが,辞書のみを使う人よりも短時間で読書を行う.
  • 定義的な注釈を読者は好む.
  • 学年と注釈参照回数に負の相関がある.
  • 調査の結果,オンライン注釈は,助けになる,時間の節約になる,容易である,楽しめるという意見が大多数の参加者から得られた.
  • 語彙力の低いグループのうち,オンライン辞書を使うグループのほうが,使わないグループより,有意に高い理解度を示したが,語彙力の高いグループでは,そうした影響は見られなかった.
  • 辞書を使うグループのほうが多くの時間を費やしたが,理解度の向上が見られたのは,低い語彙力のグループだけであった.
  • オンラインの注釈は,低い語彙力の学習者にとって有益である.
  • 文章と写真の組み合わせが,文章だけ,あるいは,ビデオ付きの文章より,語彙学習にとって効果的である.
[1] Gulcan Ercetin: Exploring ESL Learner's Use of Hype-rmedia Reading Glosses, CALICO Journal, Vol. 20, No. 2, pp. 261-283, 2003