ピックアップ,最新動向,突撃!マット・カッツ

「HOW SEARCH WORKS」サイトをもう見たかい?

2014年01月07日 ネズミ1号:略称「T」
, ,
このエントリーをはてなブックマークに追加

film.pngこんにちはマット・カッツです。今日はまだ見ていない人もいるかもしなけれど、当社のInsite Search内に掲載された「検索エンジンのしくみ(HOW SEARCH WORKS)」について紹介したいと思います。まだ見ていない人は是非見てみてくださいね。

マット:決して自画自賛している訳ではないですがクローリングから、どのようにコンテンツがインデックスされて、検索クエリワードをどう解釈 してインデックスから引っ張ってくるか?またグーグルが年中無休でスパムとどのように戦っているか?分かり易いインフォグラフィックで書かれているんだ。 ここの要素をクリックすると詳細な情報がアニメーションで表示されます!グーグルに見学に来たような気分になれますのでオススメです!



マット:まず最初にエクスキューズという訳ではないのですが..ページの下の方をみてもらうとおもしろいんですが..150秒間かな?その間に5700万もの検索クエリーをさばいていると表示されています。ちょっとおもしろい数値なんだけども、以前に1日20億ものサーチをさばいているといったことがあったんだけどこの辺りの数などはちょっと面白おかしくみてください。

※ちなみにこの記事を書いているのが1/7で61,728,000なっています。

特にためになると思うところが、僕らがどう品質を評価しているかという部分だね。この部分は見る価値ありです。ちょっと深い話をすると、新しいアルゴリズムを評価する時の話なのですが、いつもクオリティレイターに評価をお願いしています。イメージをいうと、レイターはとあるキーワード意図に対して右側の検索結果と左側の検索結果2つの検索結果を見比べてどちらがいいか選んでもらったりしているんです。彼らはその評価がアルゴリズム評価だとは知らされていないんですね。レイターによる評価データを蓄積して統計をとりつつチューニングしてアルゴリズムをロールアウトしていっているんだ。

それからもっとためになるのが、2012年のものだと思うんだけれど、18,000近くものアルゴリズム改善案から、レイターによるサイドbyサイド等による仮説固め、その結果1万通り近くの検索結果パターンまで絞込、これまたレイターにサイドbyサイドで投票評価していもらい、最終的に改善案を絞り込むというプロセスなども分かりやすく開示しているところですね。(ねずみ一号:マットさん、サイトを見ましたがそのような言及なないような。。。)

※ありました。日本語でファネルが紹介していますね。こちらです。

それからセブンサウザンドと僕らが読んでいる実際のトラフィック実験などについても自慢しちゃおう。実際にフィールド実験として一般の人がどれだけクリックしたかも計測しているんだ。

このような工程を経て665ものアルゴリズム改善を2012年に行いました!!!1日に換算するとだいたい2件程度のアップデートがあるということですね。よく僕のところにどんな変化が起こっているんだ!!と問い合わせがありますが、日々忙しく変わっているのでそんなに簡単に答えられませんという感じですね。

マット:どうでしょう?凄いでしょ!でもまだまだあるんです。僕が一番好きなコンテンツが..! それは、「スパムセクション」ですね。「24 hours/ 7 days a week」とうたっていますが、365日24時間スパムセクションは戦っているのです!
おそらくこのセクションの情報はまだ皆が知らないような情報もあると思いますよ!注目なのが、ここ最近マニュアルアクションをしたサイトのスクリーンショット情報が見れるんだ!

↓ここを見てくれたまえ
See what we've removed lately

どうですか?まるで、我々チームの背後にたって日々どのようなスパムサイトが摘出されているか手に取るように分かるでしょ!

それからスパムカテゴリーについても勉強できちゃうんです。クローキング、ハックサイト、hidden text、パークトドメインやスニーキーリダイレクト、キーワードスタッフィング、ピュアスパムから悪名高いブラックハットスパム、フリーホースやダイナミックDNSプロバイダー、内容のない量産コンテンツ、不自然なリンクに関する事項まで特にお金でリンクを買うこととか、包括的にスパムに関する情報がまとめられているので一見の価値有りです!

こちらではどのようなカテゴリーのスパムが摘発されたかなど日ごとのデータもみれるんです。
See action taken over time

やらかす人達がどのような手法を多用しているか一目瞭然ですね。

最後に、僕らがウェブマスターとどれだけコミュニケーションをとっているかもグラフでみることができるんだ。

まずは、スパム警告数のグラフ
When we take action, we attempt to notifythe website owners.
See the growth in spam notifications

それから改善したサイトの再審査リクエスト数

Site owners can fix their sites and let us know.
See how often this happens

このグラフを見て、僕らがハードワークしていることがわかってもらえましたでしょうか?
(すみません、以降3分ほどは尺の都合でカットさせていただきましたbyネズミ一号)


ネズミ一号:ドラマの24hoursみたいに力説しておられましたが、やはりスパムチームの取り組みのところを力説されていましたね。でもこのサイトはインフォグラフでグーグルの検索エンジン運営の様子が、「お仕事見学」風に網羅されていて非常に為になるサイトだと思いました。まだ見ていない人は是非隅々まで見ていただけるといでしょう。

ちょっと古いですがレイターさんに配られている「Search Quality Rating Guidelines Version 1.0 November 2, 2012」もインフォグラフィックからDLできるようになっていました。43Pほどのボリュームですが、こちらを読破するとホワイトハット対策の真髄が理解できるはずです。最新版は90ページ位になっていたように思いますが、基本の真髄は8年ほど前とかわっていませんね。一見するとグラフィカルなインフォグラフィックでおもしろコンテンツ用に見えますが、実はよく見ると下記のようなコンテンツがぎっしり詰まっていて、大変為になるサイトでした。

The Story

Overview

Crawling & Indexing

Algorithms

Fighting Spam

Policies

こちらはGoogle検索について体系的把握したい方や今までの知識のおさらいとして詳細まで復習したいという方は必見のサイトだと思いますので是非一度ご覧になる価値はありると思います。

最後になりましたが、本日は10分以上の長尺だったので、概要翻訳となります。ご了承ください。

, ,


関連記事