上で紹介したような高度な自然言語処理を実現するためには、文章の構造や意味を高精度で解析できる基盤技術が必要不可欠です。現在までの自然言語処理の研 究は、新聞の文章のようなある程度形式が揃ったきれいなテキストデータを対象としていたため、現在の技術をそのまま適用するとうまく解析できないことが 多々あります。また、自然言語の意味に関する研究テーマに踏み込むと、あまりに手がかりがないため今まで手がつけられなかったという面もあります。本プロ ジェクトでは、試験問題というある意味限定された世界ではありますが、その中で高精度な解析や、深い意味の解析を実現すべく研究を進めています。
深い構文解析
日本語の解析では係り受け解析が広く使われていますが、意味解析のためには不十分なので、文の詳細な構造(深い構文構造)を高精度で解析し、形式論理(述語論理など)に基づく意味表現を計算できるような構文解析器が必要です。
日 本語の文章を構文解析し、形式論理に基づく意味表現を出力するために、組合せ範疇文法(CCG)に基づく日本語構文解析器の開発を進めています。CCG は、自然言語の文法を形式的に記述するために提案され、英語では高精度な構文解析器が実現されています。この理論を日本語の解析に応用するために、文法理 論の研究や大規模文法の開発、構文解析器の実装などを行っています。
参照・照応解析
現在の自然言語処理では各文を独立に解析するやり方が一般的ですが、この方法では実際の試験問題や教科書の文章が表わす意味を正確にとらえることができません。例えば、以下のような教科書の説明について考えてみます。
東地中海の強国―オスマン帝国
... イェニチェリ軍団は,軍楽隊,工兵隊,大砲隊,鉄砲隊などをそなえた皇帝直属の常備軍で,のちにヨーロッパで発展する近代的陸軍の先がけであった。
(東京書籍 平成19年度 世界史B)
この文には「オスマン帝国」という単語は出てきませんが、人間がこの文章を読むとオスマン帝国についての記述であることが理解できます。したがって、ここでの「皇帝」は「オスマン帝国の皇帝」であることが分かります。
このように、人間は文を順番に読む時、前の文の理解に基づいて次の文の意味を理解します。これを実現する技術を文脈解析と言いますが、文脈をどのように解析したらいいのか未だに共通見解は無く、いろいろなアプローチが研究されています。
上の例のように、「皇帝」が実際には「オスマン帝国の皇帝」を指し示している、という解析を行う技術を
共参照解析と 言います。全ての語に対して共参照解析を行うのは非常に難しい問題なので、自然言語処理では、限られたタイプの語(例えば人名や国名など)を対象にした り、動詞の主語や目的語など限られた場所の語を対象にしたりすることで、タスクを簡単化することが主流です。しかし、そのように対象を限ってしまうと、上 の例のような文章を理解することができず、問題に正しく答えられません。
本プロジェクトでは、試験問題に解答するために必要な意味・文脈理解とは何か、という観点から、共参照解析の問題にアプローチしています。現在は、データの分析、タスク設計、評価用データの作成を進めています。