« グーグルはなぜブラウザを開発したのか | トップページ | そうしてすべてはデータベースの項目(データ)になった »

2008.10.06

答えそのものを表示してくれる次世代検索

これまでの検索は、
検索語を含んだウェブページのリストを表示するだけだったが、
セマンティック検索は、ズバリ答えを表示する
 

●「今回の総裁選の候補者、福田康夫さんですね」 

 グーグルの検索は、人気ランキング順に表示されるので、注目度の高いウェブページはますます注目される。それがはたしていいことなのかと前に書い たが、たくさんのウェブサイトの一覧を表示するためには、何らかの順番をつけるしかない。ほかに方法がないのでは、と思うかもしれない。
 しかし、そんなことはない。

 それは探している情報そのものをズバリ表示してしまうことだ。
 たとえば、「家から2時間以内の紅葉がきれいな温泉に泊まりたい」と検索すれば、候補地や交通手段、宿泊場所、最適な時期などを教えてくれる。
 あるいは、「今回の自民党総裁選の候補者は?」と尋ねると、候補者たちの名前やプロフィールを答えてくれる。どこかのウェブページの情報なのでリンクは張られているが、いちいちウェブページを開いてみる必要はない。

 もちろんいまは、こんなふうにはなっていない。ヤフーでもグーグルでも、検索語が含まれるウェブページの一覧が表示されるだけだ。
  「今回の自民党総裁選の候補者」で検索すると、この原稿を書いている時点でグーグルの検索結果トップは、日テレ系報道番組「NEWS ZERO」のページ で、「安倍首相の突然の辞任から始まった今回の自民党総裁選。今回の総裁選の候補者、福田康夫さんですね」などと抜粋文が出てくる。
 ヤフーのほうは、福田首相選出を伝える自民党のサイトのニュースページだ。
 いずれも「今回」ではなくて前回の総裁選の情報だ。総裁選の告示から10日経ち、あと数日で選挙なのに、間が抜けている。しかも、ヤフーのほうは、もはや「候補者」ではなくて、福田「首相」が「選出された」というニュースだ。

 ヤフーは、単純な人気ランキング順ではなく、登録しているサイトを重視して表示している。だから、公式サイトが上位に来やすい。自民党のサイトが出てきたのはそのためだろう。
 グーグルもヤフーも人気ランキング方式を採用しているとはいえ、このように微妙な違いもある。

●答えが出てくる検索サイトはすでにある

 ただちに答えを表示してくれる検索というのは、じつはもう姿を現わしている。今年マイクロソフトが買収した米「パワーセット」の検索だ。
 このサイトで「Obama」と検索すると、オバマの顔写真と経歴が出てくる。何年にどこそこで生まれ、誰と結婚して、どんな本を書いたといったことが表示される。

 「すごい!」と思うが、じつは、これはウィキペディアを検索している。
 「なーんだ。それならこういう検索結果が出てきても不思議はない」と思うかもしれないが、おもしろいのは、履歴に続く部分だ。
 「オバマ」「勝った(WIN)」とあって、「選挙」だとか「指名」などと並んでいる。
  たとえば、「オバマ」「勝った」「指名」を選ぶと、「オバマが大統領候補の指名を勝ち取ったときに誰それがこう言った」だとか「誰それが副大統領候補とし て浮上した」などと表示される。いずれもウィキペディアのどこかの項目の文章で、オバマの項目にこのようにまとめて表示してくれる。

 この検索は「セマンティック検索」といって、意味を理解して答えをはじき出していることになっている。
 たとえば、「肝臓ガンで死んだ人は?」と検索すると、肝臓ガンで死んだ人の名前がずらっと出てくるし、「パリの人口は?」とか「東京で地震があったのはいつか」とか「糖尿病の原因は?」等々で検索してみるように、パワーセットのサイトは薦めている。
 うまく答えられているものばかりではないけれど、ウィキペディアのふつうの検索ではもちろんこんなことはできない。通常の検索を一歩超えて、答えそのものを提示する方向に歩み出している。

●「みんな」が作る次世代の検索

 このパワーセットは、ウィキペディアのデータを使っているものの、オバマの項目には、「ソースはフリーベース」と書かれている。「フリーベース」のサイトに行ってみると、仕掛けがよくわかる。

  フリーベースでオバマの項目を見ると、性別や生年、生まれた場所、子どもの名前や雇用歴、住んだ場所の一覧、さらには誰を雇ったとか、政治的な経歴まで、 ウィキペディアなどのオープンなデータがこと細かくリスト化されている。人物ごとにこうした明細ができているので、「肝臓ガンで死んだ人は?」と検索した ときには、「死因」の項目に「肝臓ガン」とある人のリストを答えとして返す、といったことをやっている。

 フリーベースのデータは、フリーベースを使ったことを明示すれば、商用でも使っていいことになっている。パワーセットはこのデータベースを利用して、検索を提供しているわけだ。
 「こんな表を作るのはたいへんだろうな。いったい誰が作っているんだ」と思うが、その答えは「みんな」である。
 ウィキペディアは、誰もが編集し記事を書くことできる百科事典だが、このフリーベースも、登録した人は誰でも編集できる。

  次世代のウェブと考えられている「セマンティック・ウェブ」は、「1984・11・25」に<生年>、「東京」に<出身地>といった具合にデータについて のデータをウェブの表記に加えておくことで、その言葉が何を意味しているかをコンピューターにもわかるようにし、言葉の意味を踏まえた処理をさせようとし ている。

 問題は、この「データについてのデータ」をどうやって付け加えるかだが、フリーベースはそれを「みんな」にやってもらうことで成し遂げようとしている。
  パワーセットは、ウェブ上の文章をコンピューターに分析させてセマンティック・ウェブ対応のデータを人手をかけずに生成しようとしているようだが、そのた めにはかなりのコンピューター・パワーがいる。難度が高く、いまのところはフリーベースのデータを使ったウィキペディアだけの検索にとどまっている。

●グーグルの検索は、言葉の意味を理解している?

 前に書いたように、グーグルはこうした力わざに対して冷ややかだ。その理由は、「今回の自民党総裁選の候補者」についての先の検索結果を見てもわかる。
  グーグルの検索は、言葉の意味を理解して答えを返しているわけではない。検索語を含んでいるウェブページを表示しているにすぎない‥‥はずなのだけど、検 索結果には、まるで質問の意味を理解したかのように、「今回の総裁選の候補者、福田康夫さんですね」と検索結果トップの抜粋文に出てきている。「今回」と いうことについては理解しそこなっているものの、それを除けばまずまずの結果だ。
 現在の検索がすでにこのようなレベルに達しているからこそ、グーグルはセマンティック検索に冷たいわけだ。

afterward
 検索が、ウェブ中に問いかけてズバリ答えを出すようになると、ブログを書いたりといったことは、検索データベースのための作業のようになってしまう。次回はそれについて。

関連サイト
●次世代の検索と目されるセマンティック検索を提供し始めているパワーセット(http://www.powerset.com/)と「Obama」の項目(http://www.powerset.com/explore/go/obama)。パワーセットを買収して傘下に入れたマイクロソフトは、自社のLive Searchと融合させ始めた。
●「フリーベース」(http://www.freebase.com/)と「Obama」の項目(http://www.freebase.com/view/en/barack_obama)。アルファ版の現在、こちらは、簡単な略歴を除けばリストのまま情報が出てくるので、慣れないと、パワーセットのほうが使い勝手はいいかもしれない。

(週刊アスキー「仮想報道」Vol.551)

« グーグルはなぜブラウザを開発したのか | トップページ | そうしてすべてはデータベースの項目(データ)になった »

次世代検索」カテゴリの記事

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/56597/42699429

この記事へのトラックバック一覧です: 答えそのものを表示してくれる次世代検索:

« グーグルはなぜブラウザを開発したのか | トップページ | そうしてすべてはデータベースの項目(データ)になった »

2014年8月
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31