2008年01月26日

中国産の検索サイト「Baidu」の日本語版が正式スタート、検索機能を比較評価


中国最大手の検索サイト「Baidu」(百度)の日本語版が、1月23日に正式スタートしました。ウェブ検索の他、画像、動画、ブログ検索ができます。



中国では検索サービスとしては70%程(情報によって違いがありますが、大勢を占めている事は確か)のシェアを短期に獲得しているとか。ただ、中国の特殊事情:

①一時期”Google”でさえも中国国内からはアクセスできなかった。
中国国内から”www.google.com”にアクセスすると、”www.baidu.com”にリダイレクトされる状態になっていたのである。
状況を知らない中国人ユーザは”www.baidu.com”を”Google”だと思いこんで使っていた。
http://www.lostintime.jp/?p=175
つい最近でも(2007/10/18日)、中国国内から海外の検索エンジンに接続しようとすると「Baidu(百度)」にリダイレクトされる事象が発生した。
http://www.lostintime.jp/?p=210

②北京の控訴裁判所は、Baiduが違法な音楽ダウンロードを助長するようなリンクを検索結果に含めている点について著作権侵害をしていないと判決した。 Baiduはトップページで音楽ファイル検索を提供しており、このサービスこそBaiduが中国でGoogleを超えて人気の高いサービスとなった中心的な理由だといわれている。Googleはこのような音楽ファイル検索を提供していない。Yahoo Chinaは似たようなケースの裁判で12月21日に敗訴している。
http://jp.techcrunch.com/archives/baidu-loses-cfo-wins-piracy-case/

があるようで、日本への進出が本当の意味での競争になりそう。

また、去年時点のベータ版では、ウェブサイトの情報を収集するロボット(クローラ)Baiduspiderが、過度にWebサイトに負荷を掛けるとして不評であったようです。
参考: フリー百科事典『ウィキペディア(Wikipedia)』



使う側の我々から見れば、良いサービスが提供される事自体は歓迎すべき事。そこで、「Baidu」の特徴といわれる:
(1)日本語検索技術の開発について、同じ2バイトコードを使う同じ文化での技術を生かしている。
(2)検索性能が良い。(どのような仕組みなのか、何故なのかは判りません)
に注目して、比較評価してみる事にしました。

但し、ここで評価する事は極めて初歩的なレベルである事は十分認識していますが、何か検索サービス自体の違いなどをそれとなく認識できるのではないかと思います。


まず、検索での評価をしたのは、
1月26日(土) AM3:00~5:00(日本時間)
です。これは対象としている日本において、検索などのインターネットアクセスが少ない時間帯と考えたからです。(サーバー側は、そういう時間に集計・集約処理をしたり、日本以外のサービスに振向けていると思いますが・・・)

今回はウェブ検索に限定しました。検索時間の表示は、各々の検索サイトからの表示情報を使っています。

比較の対象は
baidu.jp 、google.co.jp 、yahoo.co.jp 、msn.co.jp
です。MSNは検索時間表示しませんので、参考まで。また、MSNで「同じサイトから複数の検索結果が見つかった場合、最初の2 件を表示」指定になっていた事を補足しておきます。


日本語の検索では、日本語の連続したキーワードを如何に分解、活用できるかが有効な情報を見つける大きな要素になります。これは検索で指定するキーワードの問題だけでなく、蓄積文書(文章)からキーワードを抽出する時点でも課題になります。

1.「日本一の高い山」と「高い山の日本一」で比較してみます。これは、キーワードである「高い」・「山」・「日本一」が分解できているかという事と、分解されたキーワードの出現順位がどのように考慮されるか(されないか)を想定します。分解できれば、スペースで単語が区切られる英語などと同じ検索手法・技術の問題になるからです。

(1)「日本一の高い山」でウェブ検索
baidu.jp   検索結果  約4,060件、0.019秒
google.co.jp 検索結果 558 件中 (0.15 秒)
yahoo.co.jp 検索結果    約4,120,000件 - 0.41秒
msn.co.jp 検索結果 476,000 件

(2)「高い山の日本一」でウェブ検索
baidu.jp   検索結果  約3,970件、0.001秒
google.co.jp 検索結果 約 462 件 (0.24 秒)
yahoo.co.jp 検索結果    約4,110,000件 - 0.59秒
msn.co.jp 検索結果 478,000 件

「google.co.jp」では、「の」の正しい認識ができず、「日本一の高い山」という単語として扱っているようです。それ以外は「の」の認識ができているので、「日本一」+「高い山」を含む文書も対象になっています。3つのサイトの違いは、蓄積している文書のボリュームの違いと思われます。実際に、「google.co.jp」で「日本一高い山」を検索すると、
google.co.jp 検索結果 約 6,880 件 (0.18 秒)
となる事からも明らかと思います。


2.次は、「我家のIT化」でウェブ検索してみます。本ブログの名前を使って恐縮ですが、これにはITというアルファベットを含んでいる事と「化」がどのように扱われるかです。

baidu.jp   検索結果  424件、0.240秒
google.co.jp 検索結果 約 579 件 (0.18 秒)
yahoo.co.jp 検索結果    約9,060件 - 0.39秒
msn.co.jp 検索結果 658,000 件

「google.co.jp」は、この場合も「我家のIT化」を単語としています。それ以外は、「我家」+「IT」+「化」と分解しています。「msn.co.jp」が特に多いのは、「IT」というキーワードが無くても対象文書として抽出しているからで、「緑地化」・「軽量化」といった文書まで抽出し、結果的にゴミの多い検索結果になっています。


3.最後に、「SpaceShip2」でウェブ検索してみます。これの狙いは、「2」を「two」と変換しているかです。(勿論、逆の変換も必要です)

baidu.jp   検索結果  100件、0.001秒
google.co.jp 検索結果 約 4,470 件(0.14 秒)
yahoo.co.jp 検索結果    約8,420件 - 0.56秒
msn.co.jp 検索結果 2,460 件

「baidu.jp」以外では、「SpaceShipTwo」もキーワードして自動付加して検索をしています。しかし、さすがにどの検索エンジンも、「スペースシップ2」とまでは自動付加していません。


この様な結果から、現状としては、自分にとって最適な結果が出ると思われる検索エンジンを探さざるを得ません。1つは今回比較したような検索技術的・システム運用的な面から見る必要があり、2つ目は検索対象分野を得意とする検索エンジンを探す事でしょうか。



posted by 鎌倉太郎 at 08:04| ☀| Comment(0) | TrackBack(0) | IT環境 | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください

この記事へのトラックバック