ロボットは東大に入れるか。Todai Robot Project

日本語|English

国語の問題を解く―論理を超えた文章理解

国語、すなわち日本語の試験は、自然言語の理解能力を問うことを目的としています。したがって、他の科目と比べてより高度な言語理解が必要であり、人工知能の研究対象としてより難しいと言えます。
 

かな漢字変換、語義選択

漢字書き取りの問題は、かな漢字変換を応用すればよいように思われます。ただし、現在のかな漢字変換は実用上は十分な性能ですが、間違うこともしばしばあります。漢字書き取り問題では、同じ読みの間違いやすい漢字があるようなものが出題されることが多く、これはかな漢字変換でも間違いやすいと言えます。したがって、漢字書き取り問題に正確に答えるためには、前後の文脈や意味を正確に解析する必要があります。

語義選択問題も国語辞典を引く問題として解けそうな気がしますが、漢字書き取りと同様の難しさがあります。これらの問題は国語の中では簡単な方ですが、現在の技術をさらに発展させ、文脈に即して正確な判断ができる手法が必要です。
 

文章読解

「文章読解とは何か」を数学的に定義するのは難しく、いまだに様々な議論があります。今までの分析によると、まず言えるのは、試験問題で問われていることは「論理的」な思考ではないということです。ここでの「論理的」とは、数理論理学や形式論理学(命題論理や述語論理など)における「論理的な関係」のことです。試験問題で実際に問われている内容は、このような論理関係ではなく、人間社会において通常合理的と考えられている文章のつながりや流れのようです。このような概念を明確にターゲットとした研究はこれまでになく、今後さらに分析や研究が必要です。

さらに、小説の読解では、登場人物の描写から心理を読み取るなど、より複雑(別の言い方をすれば、より非論理的)な処理が必要であり、現在分析やデータ作成を進めています。
 

古文、漢文の解析

大学入試では古文や漢文の問題も大きなウェイトを占めます。問題のタイプは現代文とだいたい同じですが、現代文の解析ツール(形態素解析、構文解析)やリソース(辞書、シソーラス)をそのまま使うわけにはいきません。したがって、ツールやリソースを効率的に開発したり、ツールやリソースが不十分であっても適用できる手法の研究が必要です。このようなリソース・ツールの不足は世界中の多くの言語でも共通の問題であり、自然言語処理における一つの重要なテーマです。