アルゴリズム動向&解説,ピックアップ,最新動向

Google15周年!検索アルゴリズムもオーバーホール

2013年09月27日 ネズミ1号:略称「T」
, ,
このエントリーをはてなブックマークに追加

今週でGoogleは設立から15周年。創業時のGoogleHouseでお祝いレセプションが行われたそうです。そこで、あのアミット・シガール氏によりアルゴリズムのオーバーホールについて紹介されたとの事。詳細はまだ明らかになっておりませんが、簡単に推測すると、ナレッジグラフやschema.orgなどに代表される構造化データをより的確に活用し、利用者が打ち込む複雑な問い合わせ意図をより精度高く解釈できるようにしたといった内容のようです。
で、どうなると思いますか?QDDやQDFアルゴリズムがより洗練され、SERPs風景が今までとはちょっと変わったものとなるのかもしれませんね。



発表された新しいアルゴリズムHummingbird

今回のアルゴリズムは、「ハチドリのように機敏で正確さ」を持つアルゴリズムとして命名されたとのことです。

今日は、各記事で述べられている今回のオーバーホールの内容についてその概要を整理してポイントをまとめてみました。

どういった改変なの?
→「問い合わせ内容を寄り柔軟に解釈できるようになった!」

海外では、さまざまな憶測を呼ぶ記事が掲載されています。これから記事も参考にどういうオーバーホールがなされたのか皆さんも推測してみましょう!

ハミングバードは、ペンギンやパンダがリンクグラフや、インデクシングプロセスにおけるコンテンツ評価・解釈といったごく一部のアルゴリズムの断片だったのに対し、今回は全体を調整したまさにオーバーホールされたものだそうです。1ヶ月前ぐらいからロールアウトし、本日は、その告知のみ。

構造化データを上手に活用することで、より機敏にユーザーの問い合わせの裏にある背景や世界を理解し、インデックスされたコンテンツからより適切なコンテンツを結果として返すことができるようになったそうです。
そのヒントは対話検索。
イメージしたい方は、"「2001年宇宙の旅」みたいなGoogle音声対話型検索が「すごい」と思える件"の記事を是非ご覧になってください。Google音声検索(特にアンドロイドでは北米言語が当時も、現在も最新の解釈・解析ができています。しかし、日本語ではまだまだ出来ないことが多いようですね。よって、今回のオーバーホールは、2バイト圏の日本語フル実装へこぎつけるまで今後数ヶ月以上時間を要するのではないでしょうか?なにより国内の構造化データの整備、対話型検索によるデータ、問い合わせ内容+位置情報+時間タイミング情報などのデータ蓄積にまだまだ時間がかかるように思います。

ということは、精度はそれほでないけれどもモバイルにおける問い合わせ→結果に関する改善も当然のことながらなされていると推測できますね。すでにお気づきの方はいらっしゃると思いますが、数週間前iOS/アンドロイドのGoogleAPPがアップデートされGoogleNowや検索関連のUIやメニュー、SERPsの表示方法がG-mapと連動したりと結構大幅な変更がなされているのです。

何を欲しているか解釈するってどういう事?
→2010年に発表されたCaffeineをおさらいしてみると...

CaffeineはWikiPediaなどの構造化データやWeb上に散在する語彙やフレーズといったテキストデータだけでなく、画像や動画、旧GoogleBooksなどのスキャンされたデータも構造化し、QW意図の解釈をミクロ視点からその他オブジェクトも踏まえたコンプリヘンシブな解釈(より人に近い)できるようにしようというものでした。

https://cms.searchenginewatch.com/IMG/957/172957/google-caffeine-jpg.jpg?1304538215

言ってみれば、下記記事にも書きましたが、現在でいうナレッジグラフにも代表されるように、複雑なデータを構造化し(エンティティとして関連性を補完すること)で、上のイメージのように単なる2次元の行データ(ひょっとするとクロスデータかもしれませんが)から数次元のキューブデータとしてよりインテリジェントな解釈が出来るようになる技術だったともいえます。

ここで当時掲載されていたGoogle社の発表内容を引用してみますと...

The company had first announced on August 10, 2009 that "a large team of Googlers has been working on a secret project" that would impact "size, indexing speed, accuracy, comprehensiveness & other dimensions" of search.

2009年、Google社はインデクシングスピード、正確性、包括性などに影響を及ぼすような極秘プロジェクトをおこなっていると発表。そしてこれら研究は検索を次の次元のものへと押し上げるだろう。

と夢に一歩近づくための画期的な試みをやっているんですという内容として捉えられていたみたいです。

まとめ

実は目新しいことはそんなにあるわけではなく、数年前より地道にオーバーホールしてきた結果正式にロールアウトしましたと15th Anniversaryの席で発表したということなのでしょうね。

Googleが産声を上げたMNLO PARKにあるガレージで行われたパーティーは、当時スタンフォードの卒業生が立ち上げたまさに原点。こうした場所で、15周年パーティ?と記者会見が行われた点にニクイ演出を感じてしまいました。

在学時に執筆された以下2つのようリンク理論からはじまり、コンピューティングが発達するなかで、検索という仕組みにさまざまな改善がなされてきたということなのですね。

Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 
'The PageRank Citation Ranking: Bringing Order to the Web', 1998,
https://www-db.stanford.edu/~backrub/pageranksub.ps
Taher H. Haveliwala, 'Efficient Computation of PageRank', 
Stanford Technical Report, 1999,
https://dbpubs.stanford.edu:8090/pub/1999-31

緑色の部分がここ数年皆さんが注目または振り回されたペンギン・パンダ、もっと濃い緑がオーバーホールされた部分でないかと推測してみました。

「問い合わせ」
   ↓
「問い合わせ意図を適切に解釈」・・・エンティティ(1)-----(n)構造化されたデータ郡
   ↓                           
データベーススキーマ(index)・・・・・エンティティ(2)-------┘
   ↓
「該当する情報を引き出せるINDEX」←キャッシュしたコンテンツ(※パンダ)
   ↓
「該当するコンテンツリストの生成」
   ×
「QDD・QDF・PR(※ペンギン)」にそったランキングに並べてリスト化
   ↓
「結果(SERPsとして)を出力」

※クロールからインデクシングプロセスは省いています。あくまでも個人的な見解としてのイメージでした。汗)

とはいいつつもAI(人口知能)とまでになるのにはまだまだ長い道のりがかかるのかもしれませんね。それにしても設立から15年で資産価値で上位TOP10に入るようになったGoogle。15年を長いと見るか短いと見るかは別としてもこの偉業は率直に称えたいものですね。

, ,


関連記事