ロボットは東大に入れるか。Todai Robot Project

日本語|English

統合実験環境の構築 - 1つのモジュールから参加可能

大学入試を解くシステムの構築は、複雑かつ多様な技術の集大成であり、単独の研究グループでの開発は現実的ではありません。基盤グループでは、モジュール(コンポーネント)ごとに並列に研究を進め、かつ、多様な研究グループがそれぞれ得意なコンポーネントについて研究し、相互に成果を活用できるようにすることを目指し、ツールやデータの共有・組み合わせ・実行を容易にする統合研究基盤を構築しています。

また、各研究部門ごとに主要なコンポーネントについては、NTCIRでスペシャルタスクとして取り上げ、ベンチマークや比較評価を進めています。
 

統合研究基盤の構築

研究基盤では標準化の枠組みとしてUIMAに準拠しており、利用者の好みのUIMA準拠の実行システムを用いることができます。たとえばKachako(下記参照)を用いれば、WebベースでGUIを用いたワークフローの作成・実行が可能です。

 入試問題を入力する部分と、解答を出力し採点する部分は共通化が可能であるため、そのためのコンポーネントを提供します。また、ベースラインシステムとして、既存の質問応答システムをコンポーネント化したものを提供し、再利用しやすいようにしています。


試験問題の解答と採点
UIMAワークフローとして問題の読み込み、解答、採点を行うように以下のコンポーネントを提供します。

  • 試験問題の入力
      東ロボの提供する、試験問題の問題構造XMLデータや正答表XMLデータをUIMA形式に変換するコンポーネントを提供します。
  • 解答器の作成とラッパ
      基盤側では入出力を受け渡してUIMAと上記XMLとの相互変換を行うラッパープログラムを提供します。この場合、解答器の作成でUIMAの知識が必要とされることはありません。
      解答器をUIMAのコンポーネントとして作成することもできます。解答器の内部構造を適切に分割してコンポーネント化すれば、共有や再利用が容易になります。
  • 採点器
      UIMAの形式に変換された正解と解答器の出力を比較して採点および視覚化するコンポーネントを提供します。

ベースラインシステムの構築
入試問題を解くことは質問に対して答える作業の一種といえるので、既存の質問応答システムの仕組みを応用できる可能性が高いため、既存の質問応答システムをコンポーネント化して提供します。ただし、既存の質問応答システムが想定する質問と答えは入試問題とは異なります。また科目によっては質問応答システムのごく一部だけ再利用したいという状況も想定されます。そのため単に質問応答システム全体をプログラムとして提供するのではなく、コンポーネントに分割して提供します。

 

NTCIRでの東ロボ関連タスクの運営

NTCIRは情報検索・アクセス技術の評価と性能比較のための研究基盤で、大規模な評価実験用の研究基盤を提供することによって情報アクセス技術研究の促進を目的にしています。各研究部門ごとの主要なコンポーネントについては、NTCIRでスペシャルタスクとして取り上げ、評価用のデータセットの構築、評価手法の提案、評価を行います。より広く研究者の参加を募り、研究コミュニティにオープンな形で研究を進めます。
 

Kachako: UIMA準拠の統合実行環境

KachakoはUIMAコンポーネントからワークフローの作成や実行を支援する統合システムです。ユーザの負担が少なくなるよう自動化機能を提供することを目的の一つにしており、本研究基盤で作成したコンポーネントを自動配信・実行できるよう準備を進めています。