2011年6月22日水曜日

IBM の Watson について聞く

6月7日、東日本大震災でキャンセルされたIBM のWatson に関する講演を椿山荘で開かれた IBM Industrial Summit 2011 で聞く。一番最後のセッションで、当初予定されていた米国の研究者ではなく、東京基礎研究所の研究者が説明する。

Watson は、1997年にチェスの王者カスパロフを破った Deep Blue に続いてIBMが開発した超並列スーパーコンピュータで、自然言語による質問応答システムである。今年の2月14日〜16日の三日間、米国の有名なクイズ番組 Jeopardy! (ジョパディ)で過去のチャンピョン2人を負かして一躍有名になった。

Watson はIBMが1997年から最大25名の研究者をかけて開発したシステムであり、ハードウェアは市販機 IBM Power 750 をベースとする超並列機で、90台のサーバは、2880個のPower7 コアから構成される。
Watson の核心は質問応答システムである DeepQA にある。
DeepQA の知識ベースがどのように構成されているか、どのような推論を行うかに興味があった。知識ベースのほとんどは、映画のタイトルと監督等一部の表によるDBを除いて、大半がテキスト情報とのことであった。
情報はWikipedia のようなインターネット上の情報を採用しており、2億ページ 70 Giga Byte からなり、予想外に少ない。実際には構文解析等の処理を行った後の情報を付加して500 GB 程度とのこと。

推論の詳細は聞けなかったが、勿論、クイズ番組なので答えの語句が質問文にある訳もなく単純な全文検索では不可能だ。基本的には構文解析を行い、質問分における回答を指す代名詞との照応関係の解析を行った後、上記の知識ベースとパターンマッチを行うようである。複数の候補の中から確信度の計算を行って最高のものを回答とする。大体2〜3秒程度で回答し、正解率は87%程度で人間のチャンピョンと同程度とのこと。

説明の中で面白かったのは、テキスト情報としてWikipedia の記述を多く採用している事であった。70GBと少ないのはインターネット上には膨大な情報があるが、信頼できる情報はそれほど多くないこと、また、Wikipedia の記事は、対象の語句について総合的にかつある程度のサイズ内に記述されており、オープンな分野に対する情報としては適切なのであろう。
Watsonが不得意な領域としては、医療やファイナンスの領域があり、これは非常に詳細、大部な情報はあるが、Wikipedia のようなコンパクトで網羅的な記述は一般には(インターネット上には)少ない事が原因とのことであった。
また些細なことであるが、Jeopardy! は質問を読み終わった後、早押しで回答するのだが、音声認識を採用していない(会場の雑音が多い)Watsonではどのように入力するのかが問題なのだが、Jeopardy では、6分野×5レベル合計30問の問題パネルが選択された瞬間に、選択された問題のテキストデータが通信路で入力されるようになっているとのことであった。

IBMは2年程度で Watson を医療やファイナンス等の領域におけるDecision Support Systemとして商用化する計画であり、既に複数の大学医学部と共同開発を進めている。(医療やファイナンス等、WatsonがJeopardy! で不得意としている領域を選択したのは、金になる領域であり、またインターネット上に既にある情報ではビジネスにはならないと判断したためか?)

椿山荘に入るのは初めてであったが、山県有朋の別荘であっただけにさすが立派であり、建物の4階に届くような大樹が多数あり、高低差の大きい地形の中に池や川が作られ、ホタルもいるようだ。
建物の中も先週行った目黒雅叙園よりも、フォーシーズンズホテルが同居しているだけあってかなり品が良い。
庭園を歩いて冠木門を出ると神田川の桜並木であり、江戸川橋の駅まで歩いて帰る。
春の桜の頃はとても奇麗だろう。

0 件のコメント:

コメントを投稿