« グーグルのすごさとその限界が見えてきた | トップページ | 講演のお知らせ »

2008.09.16

グーグルが興味を示さないセマンティック検索

グーグルを超えようと思ったら、
グーグルがやらないことをするという手がある。
マイクロソフトやドイツなどが
そのような次世代検索に乗りだしている。
 

●日付検索に弱いいまの検索エンジン

 グーグルを初めて見たときから、すぐにでもできるだろうと思っていたのに、なかなかできなかった機能がある。日付を指定して検索することだ。
 そう思っていたら、やがて「検索オプション」のページで過去 3か月、6か月、1年以内の情報に限定して検索できるようになった。昨年夏には少し変更し、24時間以内、1週間以内、1か月以内、1年以内の4つになった。ヤフーは、いまも3か月、6か月、1年以内の選択肢だが、たしかにそれよりはこの4つのほうが利用頻度は多そうだ。

 グーグルでもっと柔軟に日付を指定して検索する「裏技」も発見されている。検索結果ページの長いURLのなかの「&as_qdr=d」などとあるのは日付の指定らしく、「d」を「d3」にすれば過去3日、「w4」にすれば過去4週間、「y5」にすれば過去5年といったぐあいに、検索オプションの選択肢がない日付内の検索もできる(ネットでは3d、4w、5yなど先に数字を入れると説明されているが、数字を後ろに付けなければ有効でないようだ)。

 また検索ウィンドウで、"last updated * * 2003"とか"march * 2003"、inurl:2003などと指定して検索すると、この年に公開されたウェブページを見つけることができるとグーグルの非公式ブログに書かれている。しかし、" "で囲む検索は、ウェブページにこうした文字列が入ってなければダメだし、3つめのinurlはURLに2003が含まれていなければダメだ。

 時間内の検索はできるようになったものの、検索結果ページでは、新しい順に並ぶわけでもない。通常のウェブ検索と同じく、「ページランク」と呼ばれるウェブページの格付け順に並んでいる。またそもそもこの日付は、ウェブページの更新日ではなくて、グーグルのクローラーがデータを集めた日だ。更新日とは少しずれている。

 「2003…2006」といったふうに「…」を使うと、2003から2006までの数字があるウェブページの検索はできるが、何月何日から何月何日までといった期間指定をして検索することはできない。ブログ検索やニュース検索ではこうした指定ができるが、通常のウェブ検索では無理だ。フォーマットが一定していないウェブページは、日付検索というきわめてシンプルで、あれば誰もが便利と思うはずの機能が十分ではない。

  しかし、未来永劫無理なのかといえば、そんなことはない。といっても、グーグルがいまの検索の延長上であれこれやってもかなりむずかしいだろう。

●セマンティック検索に国をあげて力を入れているドイツ

 「セマンティック検索」というのができれば、こうした問題はかなり解決されるだろう。ウェブ2・0という言葉が流行ったが、かねてから次世代のウェブと考えられていたのは「セマンティック・ウェブ」と呼ばれているものだ。
 いまのウェブページは、人間が見れば意味がわかるが、コンピューターはわからない。2008/09/12と二〇〇八年九月一二日が同じ日付のことだということは人間はわかるが、コンピューターは教えこまないかぎり同じと認識しない。これは同じとひとつひとつ教えないですむためには、日付は日付とわかるタグ、更新日は更新日とわかるタグを付けてウェブページを作っておけば、コンピューターにも読みとれる。こうしたことを大々的にやろうというのがセマンティック・ウェブで、セマンティック検索もこうした技術をもとにしたものだ。
 これの最大の難点は、タグを付けるため、ウェブページを作るのに手間がかかってしまうということだ。どうやったら簡単に作れるようになるかといったところで多くの人や企業が頭をしぼっている。

 グーグルももちろんセマンティック検索に関心を持ち研究してはいるだろうが、これまで蓄積してきたウェブページのデータや解析が使えなくなってしまうこともあって、さしあたり積極的に乗り出すつもりはないようだ。
 グーグルを超えるためには、グーグルがやる気のないこうした検索にトライするというのはひとつの方法だろう。実際、いろいろな企業が着手している。検索市場でグーグルに何としてでも追いつきたいマイクロソフトも、7月始めに、「パワーセット」というセマンティック検索会社を買収したと発表している。

 またドイツは、「情報社会ドイツ2010」と名づけた国家プロジェクトの一環として、06年から30の大学や研究所、企業が参加してセマンティック技術の開発を始めている。
 ホームページもできていて、「セマンティックは現在のインターネットを根本的に変える」とのことで、情報洪水の中で、知識は構造化されて蓄積されることによって始めて高度化でき、「次世代のインターネット(ウェブ3.0)では、構造化されたグローバルな知識や新たなサービスに簡単にアクセスできるようになる」と説明している。また、こうした情報基盤ができれば、新たなネット・ビジネスが生まれ、産業の活性化ができ、「ITベースのサービス・エコノミーの創造に貢献できる」とも言っている。

●ヨーロッパはアメリカにはならない
 
 アメリカ流の考え方からすれば、こうした情報技術の開発を国をあげてやるのは無駄で、民間にまかせたほうが効率的ということになるだろう。
 とはいえアメリカも、ただちに利益に結びつかない基礎的な科学技術については政府がお金を投じるべきだと考え、しばしばそうしたことを実行してきた。インターネットもそうで、アメリカ政府の資金を使ってずっと研究してきた。だから、アメリカも「なんでも民間で」というわけではない。しかし、ヨーロッパのほうがはるかに政府の関与を重視している。
 ヨーロッパでは、ネットの基盤である検索技術を、グーグルのようなアメリカの民間企業にゆだねてしまっていいのかという疑問が出てきている。

 いまは絶好調のグーグルだが、いつか会社が傾いて、どこかの会社に買われるかもしれない。プライベートな情報や貴重な情報をごっそり手に入れた会社が社会の利益に反するようなことをする可能性がある。こうした懸念もあって、ネットの基本的なインフラである検索は、国がかかわったほうがいいのではないかという思いがこうしたヨーロッパのプロジェクトの背景にはあるようだ。たとえばフランスの国立図書館長が書いた『Googleとの闘い』などにはこうした考えがはっきりと見てとれる。
 ヨーロッパでは、グーグルが検索エンジン市場の8割近くを占めており、そのぶんいよいよ危機感が強い。

 日本ではさしあたり、ネットのインフラである検索を民間企業が抑えていることにあまり疑問を持たれていないようだ。しかし、たとえば街角や家の鮮明な画像が見える地図検索のストリートビューによってプライバシーに対する懸念が高まるなど、問題が噴出すれば、ヨーロッパ流の考えも一理あると思われるようになるかもしれない。

afterward
 グーグルはついにブラウザまで開発して配布し始めた。何を考えているのかおもしろいが、次回以降ももう少し、上に書いたフランスの国会図書館長のグーグル批判や、セマンティック検索などのグーグルを超える試みをとりあげたい。

関連サイト
●グーグル非公式サイト「Google Operating System」の昨年3月11日のエントリが日付検索の裏技を紹介している(http://googlesystem.blogspot.com/2007/03/restricting-search-to-date-range.html)。
●セマンティック技術を中心に進めているドイツの国家プロジェクト「テセウス」のホームページ(http://theseus-programm.de/language/en?destination=front)。英語のページもできている。「ウェブ2.0+セマンティック=ウェブ3.0」だそうだ。

(週刊アスキー「仮想報道」Vol.548)

« グーグルのすごさとその限界が見えてきた | トップページ | 講演のお知らせ »

グーグル」カテゴリの記事

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/56597/42490816

この記事へのトラックバック一覧です: グーグルが興味を示さないセマンティック検索:

« グーグルのすごさとその限界が見えてきた | トップページ | 講演のお知らせ »

2014年8月
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31