ロボットは東大に入れるか。Todai Robot Project

日本語|English

社会科問題への解答と自然言語処理

世界史や現代社会などの社会科の科目では、自然言語で様々な知識を表し、答えを導きます。したがって、自然言語で書かれた情報をコンピュータで解析する技術である自然言語処理に関する研究を中心にプロジェクトを進めています。ここでは、現在進めている研究のうち代表的なものを紹介します。
 

含意関係認識

社会科科目では、知識を問う問題(いわゆる「暗記問題」)が多く出題されます。例えば、以下のような問題が典型的です。

兵制や兵士について述べた文として最も適当なものを,次のうちから一つ選べ。
① イェニチェリは,オスマン帝国の常備軍であった。
② ポエニ戦争後,重装歩兵として従軍した農民層は経済的に豊かになった。
(2009年度センター試験 世界史B)

このような問題に答えるためには、各選択肢が歴史的事実かどうかを判断する必要があります。歴史的事実は教科書や参考書に書いてあるので、教科書・参考書の内容を暗記していれば、この問題に正解することができます。

コンピュータは無尽蔵にデータを記憶できるので、このような問題はむしろ得意と思われるかもしれません。しかし、実際にコンピュータが得意なのはデータの丸暗記(一字一句正確に覚えること)であり、内容を記憶しているわけではありません。したがって、教科書・参考書を丸暗記するのではなく、その内容(つまり知識)に基づいて判断ができるようなしくみが必要です。自然言語で書かれた内容を理解し、知識として活用するということは、自然言語の意味を理解することと言えます。これは自然言語処理の研究において重要なテーマであり、未解決の難問ですが、自然言語に関わる様々な応用において鍵となる技術でもあります。

2つの文 t1, t2 が与えられ、「t1 が正しいと仮定したとき、t2も正しいと言える」かどうかを認識する技術を、自然言語処理では含意関係認識と言います。含意関係認識を応用すると、上のような問題を解くことができます。例えば、この問題の選択肢①については教科書に以下のような説明があります。

東地中海の強国―オスマン帝国
 ... イェニチェリ軍団は,軍楽隊,工兵隊,大砲隊,鉄砲隊などをそなえた皇帝直属の常備軍で,のちにヨーロッパで発展する近代的陸軍の先がけであった。
(東京書籍 平成19年度 世界史B)

この説明を見ると、①が正しいことが分かります。これは、以下のような含意関係認識を行っていることに相当します。

t1: オスマン帝国のイェニチェリ軍団は,軍楽隊,工兵隊,大砲隊,鉄砲隊などをそなえた皇帝直属の常備軍で,のちにヨーロッパで発展する近代的陸軍の先がけであった。
→ t2: イェニチェリは,オスマン帝国の常備軍であった。

人間にとっては当たり前の判断ですが、今のところコンピュータにはこの判断ができません。現在、含意関係認識を高精度で行うための手法について研究を進めています。

また、NTCIR ワークショップで含意関係認識をテーマとした RITE タスクを開催しています。センター試験の問題から作成した評価データも提供しており、含意関係認識の研究を通して知識を問う問題にアプローチする研究を推進しています。
 

質問応答

自然言語の質問に答える技術は質問応答と呼ばれ、情報検索や自然言語処理の分野で古くから研究されてきました。質問応答の研究では、まず質問のタイプを分類します。一番答えやすいタイプの問題は事実型質問と呼ばれるもので、答えが名詞になるものです。例えば、「日本で一番高い山は?」という質問に対しては山の名前を答えることが期待されているので、これは事実型の質問です。このような質問は、「日本」「一番」「高い」というキーワードと共起する山の名前を探す、といった検索の応用として解くことができます。他には出来事の理由や原因を問う質問や、概念の定義を問う質問に答える技術が研究されています。

大学入試では、このような質問応答に帰着できる問題も多く出題されます。典型的なものは、ある出来事が起きた年を答える問題です(例:鎌倉幕府が開かれたのは何年?)。ただし、大学入試問題では、複数の出来事の組合せについて問われることが多いため、現在の質問応答技術をそのまま応用するだけでは高い正答率は得られません。例えば、以下のような問題があります。

18世紀末の中国では、世界の終末をとなえる弥勒下生信仰に基づく宗教結社が、現世の変革を求めて四川と湖北との境界地区などで蜂起したが、おもに郷勇などの自衛組織に鎮圧された。この宗教結社がおこした乱の名称を記しなさい。
(2009年度東京大学前期試験 世界史)

この問題では、「中国」「弥勒下生信仰」「宗教結社」などのキーワードに加えて、「世界の終末をとなえる」「蜂起した」「鎮圧された」などの出来事が記述されており、これらの間の関係を理解する必要があります。質問応答の精度をさらに高め、このような複雑な問題にも正確に答えられる技術の研究を進めています。

また、含意関係認識のところで説明したようなタイプの問題は、各選択肢が「正しいか、間違っているか」を聞く質問と考えれば、質問応答の一種と見ることもできます。しかし、正しいかどうかを聞く質問(yes/no 型の質問)は、現在の質問応答の技術では答えることが意外と難しく、あまり研究が行われていません。含意関係認識の研究と並行して、質問応答技術を利用してこのような問題に答える研究を行っています。
 

知識に基づく推論

含意関係認識では、t2 が「正しいと言える」あるいは「正しいとは言えない」という判断はできますが、t2 が「間違っている」とは判断できません。もしt1 と t2 が論理的に矛盾していれば、t1 を根拠にして「t2 は間違っている」と言えます。しかし、実際の試験問題を分析したところでは、t2 が論理的に矛盾であると判断できる場合はあまり多くありません。例えば、以下のような例が挙げられます。

8世紀に起こった出来事について述べた文として正しいものを選べ。
① ピピンは,ランゴバルド王国を滅ぼした。
② ハールーン=アッラシードの治世が始まった。
(2009年度センター試験 世界史B)

教科書を見ると、「ピピン3世の子カールはランゴバルド王国を滅ぼした」という説明があるので、我々は①が間違いであることが分かります(この問題は②が正解)。人間は、「ピピンの子がXを滅ぼした」という説明を聞くと、「ピピンがXを滅ぼした」は間違っていると判断しますが、これは論理的には矛盾とは言えません(もしかしたら二人で滅ぼしたかもしれない)。したがって、①を自信を持って「間違っている」ということはコンピュータにはとても難しいことです。

そこで、別方面からのアプローチとして、複数の知識を組み合わせることで矛盾を導く方法が考えられます。上の例では、ピピン(小ピピン)の生存期間が714年~768年、ランゴバルド王国の存在期間が568年~774年という知識を合わせると、ランゴバルド王国の存在終了時がピピンの生存期間より後であるため、①は矛盾していることが分かります。つまり、人物や国家などの存在時間や場所などの知識と、「滅ぼす」という出来事が満たさなければならない性質を組み合わせると、矛盾であることを推論することができます。

このような知識を整理したデータベースをオントロジーと呼びます。世界史などの問題を正確に解くためには、高校の教科書に出てくる程度の内容を網羅的にカバーした大規模オントロジーを作る必要があります。オントロジーを作ること自体もとても難しいですが、オントロジーにどのような形式で知識を格納し、どのように組み合わせて矛盾を導くかを考えることも必要です。つまり、自然言語で記述された知識をコンピュータが自動推論に使える形で再整理していることになります。主に世界史を対象として、オントロジーの開発とともに、知識表現の設計や推論手法についてデザインを進めています。
 

自然言語処理基盤技術の研究

上で紹介したような高度な自然言語処理を実現するためには、文章の構造や意味を高精度で解析できる基盤技術が必要不可欠です。現在までの自然言語処理の研究は、新聞の文章のようなある程度形式が揃ったきれいなテキストデータを対象としていたため、現在の技術をそのまま適用するとうまく解析できないことが多々あります。また、自然言語の意味に関する研究テーマに踏み込むと、あまりに手がかりがないため今まで手がつけられなかったという面もあります。本プロジェクトでは、試験問題というある意味限定された世界ではありますが、その中で高精度な解析や、深い意味の解析を実現すべく研究を進めています。


深い構文解析

日本語の解析では係り受け解析が広く使われていますが、意味解析のためには不十分なので、文の詳細な構造(深い構文構造)を高精度で解析し、形式論理(述語論理など)に基づく意味表現を計算できるような構文解析器が必要です。

日本語の文章を構文解析し、形式論理に基づく意味表現を出力するために、組合せ範疇文法(CCG)に基づく日本語構文解析器の開発を進めています。CCGは、自然言語の文法を形式的に記述するために提案され、英語では高精度な構文解析器が実現されています。この理論を日本語の解析に応用するために、文法理論の研究や大規模文法の開発、構文解析器の実装などを行っています。

参照・照応解析

現在の自然言語処理では各文を独立に解析するやり方が一般的ですが、この方法では実際の試験問題や教科書の文章が表わす意味を正確にとらえることができません。例えば、以下のような教科書の説明について考えてみます。

東地中海の強国―オスマン帝国
 ... イェニチェリ軍団は,軍楽隊,工兵隊,大砲隊,鉄砲隊などをそなえた皇帝直属の常備軍で,のちにヨーロッパで発展する近代的陸軍の先がけであった。
(東京書籍 平成19年度 世界史B)

この文には「オスマン帝国」という単語は出てきませんが、人間がこの文章を読むとオスマン帝国についての記述であることが理解できます。したがって、ここでの「皇帝」は「オスマン帝国の皇帝」であることが分かります。

このように、人間は文を順番に読む時、前の文の理解に基づいて次の文の意味を理解します。これを実現する技術を文脈解析と言いますが、文脈をどのように解析したらいいのか未だに共通見解は無く、いろいろなアプローチが研究されています。

上の例のように、「皇帝」が実際には「オスマン帝国の皇帝」を指し示している、という解析を行う技術を共参照解析と言います。全ての語に対して共参照解析を行うのは非常に難しい問題なので、自然言語処理では、限られたタイプの語(例えば人名や国名など)を対象にしたり、動詞の主語や目的語など限られた場所の語を対象にしたりすることで、タスクを簡単化することが主流です。しかし、そのように対象を限ってしまうと、上の例のような文章を理解することができず、問題に正しく答えられません。

本プロジェクトでは、試験問題に解答するために必要な意味・文脈理解とは何か、という観点から、共参照解析の問題にアプローチしています。現在は、データの分析、タスク設計、評価用データの作成を進めています。
 

その他の研究テーマ

自然言語処理の観点から大学入試問題を分析すると、様々な興味深い研究テーマが見つかります。上に挙げたもの以外にも、現在はまだ手を付けていませんが、以下のようないろいろなチャレンジが見つかっています。
  • 抽象的・比喩的表現に当てはまる具体的事例の認識
  • 意図や観点に沿った要約
  • 数式や記号が入り混じった文章の解析
  • 時間・空間情報の認識と推論
共同研究者を募集していますので、興味のある方は、ぜひチャレンジしましょう。