ロボットは東大に入れるか。Todai Robot Project

日本語|English

英語の試験問題と人工知能

ロボットにとっては日本語も英語も外国語なので、英語だから特に解析が難しいということはありません。では、「英語の試験問題を解く」ときに、人工知能の問題としてどういうむずかしさがあるのでしょうか?以下で代表的なテーマを紹介しますが、英語の試験問題では、他の科目と比べて(人工知能の問題として)非常に簡単なものから極めて難しい難問まで含まれています。ポイントは、人間にとって難しいことと、ロボットにとって難しいこととが異なる場合が多いということです。試験問題を解くプロセスを分析していくと、人間が当たり前にやっていることがいかに難しいかが明らかとなってきます。
 

単語や文法の知識

英語の発音問題やアクセント問題は、辞書を用意すれば正確に答えられそうに思えます。特に、文章中の文脈を考える必要のない問題(例えば、単語がいくつか与えられ、発音が同じものを選ぶ問題)は、辞書を引けば確実に答えられます。センター試験の発音やアクセント問題については、辞書引きを行うシステムを開発し、ほぼ100%の正答率が出ています。
 

機械翻訳

機械翻訳技術は近年急速に進歩しているため、英文和訳の問題は機械翻訳で答えられそうな気がします。しかし、実際に機械翻訳を試験問題に適用してみると、意外とうまくいきません。一つの理由は、現在の翻訳精度では普段使いにはなるが、試験で正解するには足りないということがあります。したがって、機械翻訳の精度をさらに向上させる必要があります。

もう一つの問題は、現在の翻訳技術は意味や文脈を考慮しない設計になっているため、試験問題にうまく解答できないということが考えられます。試験で出題される翻訳問題は、多くの場合、文脈に基づく訳し分けが求められます。しかし、現在の機械翻訳ではそのようなケースを無視しているため、そもそもうまく訳出することができません。文脈を考慮した訳し分けができるような手法を研究することで、試験問題に正確に答えられるレベルの高精度な機械翻訳技術を目指していきます。
 

文章読解や常識的判断

上の2つのような問題はある程度アプローチが見えていますが、実際にはそのような問題は多くありません。実際の問題の多くは、文章読解や会話の理解が求められます。

例えば、以下のような問題があります。

次の会話の     に入れるのに最も適当なものを一つ選べ。
Zack: It's already ten. We'd better be going when Bob comes back from the restroom. Shall we split the bill equally?
Koji: I'd rather not do that. I ate and drank a lot more than you two. I think I should pay more.
Zack:    
Koji: That sounds fair.
① Calm down. You don't have to get so excited.
② How about asking for a discount?
③ I wish I'd brought the coupon from the magazine.
④ Should we ask for separate checks?
(2009年度センター試験 英語)

この問題を日本語に訳すと以下のようになります。

次の会話の     に入れるのに最も適当なものを①~④のうちから一つ選べ。
Zack: もう10時だ。Bobがトイレから戻ってきたら出た方がいいね。割り勘にしようか?
Koji: そうしない方がいいよ。僕は君たち二人よりたくさん食べて飲んだからね。僕は多く払うべきだと思う。
Zack:    
Koji: それはフェアだね。
① 落ち着いて。そんなに興奮することないよ。
② まけてくれるように頼んでみる?
③ 雑誌からクーポンを持ってくればよかった。
④ 別々にお勘定してもらおうか?

日本語訳を見れば、レストランに関する常識がある人であれば、簡単に答えが分かるでしょう(もちろん答えは④です)。しかし、なぜ④が正解なのでしょうか。これには論理的な説明をすることはできず、ただ「それが自然だから」としか言えません。

この問題は特別な読解能力を必要としているのではなく、英語で書かれた文章を正しく理解できているかどうかが求められています。ここで「正しく理解できている」というのは、日本語と同じように理解できているということですが、その中には「一般社会での常識を知っている」ことが含まれています。人間であればだれでも分かることを前提として、ちゃんと理解できているかどうかを試験しているわけですが、コンピュータにとっては「人間であればだれでも分かること」が分からないため、そこが逆に難しい問題になってしまいます。

今までの分析では、英語の問題はこのように人間の常識に依拠する部分が多く、効果的な解答方法はまだ見つかっていません。常識の問題は、今までの人工知能研究でも非常に難しいことが知られており、現在の多くの研究ではいかにこの問題を避けるかが一つのポイントともなっています。このプロジェクトでは、試験で出題される限られた範囲の中で、上記のような理解のしくみを考えていきます。今後、意味理解や常識がどのようなメカニズムで運用され、試験問題に解答しているのか、さらに分析を進めていきます。
 

図やイラストの理解

センター試験の英語の問題では、図やイラストが多用されます。人間であればだれでも理解できるような簡単な図ですが、これを理解することはコンピュータにとっては至難の業です。画像認識の研究はさかんに行われていますが、ほとんどの研究は写真を対象としており、図やイラストを理解する研究はほとんど行われていません。これは、デフォルメされたイメージを理解するためにはさまざまな常識が必要であり、今のところ有効なアプローチが全く見当たらないためと考えられます。人間にとっては図やイラストの理解は試験問題を解く上で重要なポイントではないですが、人間にとって当たり前すぎるからこそ、逆にコンピュータにとっては非常に難しいと言えます。
 

東ロボ英語チーム