ピックアップ,最新動向,突撃!マット・カッツ

グーグルのサーチスパムチームでウェブスパムと格闘する1日とはどのようなものでしょうか?

2014年02月16日 ネズミ1号:略称「T」
, ,
このエントリーをはてなブックマークに追加

film.png今日はブライアン・ハーネッシュさんからの質問。「サーチスパムチームのメンバーの一日はどのような感じなのでしょうか?サーチアルゴリズムのアップデートなどの決定はどのように行われるのか?またアルゴリズムの一部は永遠に不変だったりするものなどあるのでしょうか?」

matt:「ウァオー!」この質問は非常にグレートな質問ですね。でも一言で答えられないのでちょっと長くなりますがお話しましょうか。
ご存じのとおりウェブスパムチームは、マニュアルスパム担当とエンジニアで構成されています。質問は、もしマニュアルスパム担当になったらどのような一日を体験できるか?ということでしたね。OK。いやぁ僕も毎日多くのマニュアルスパムファイティングをしているのですが、ではまず大まかな仕事のイメージからお伝えしましょう。
マニュアルスパム担当の仕事は、大きく、「受動的なスパムの発掘定義業務(Reactive Spam Fighting)」と「積極的に問題の解決策を探し実装して行く(Proactive Spam Fighting)」の2つがあります。



matt:はい、ではリアクティブな業務から説明しますね。我々は、日々スパムレポートをもらいますが、それに対し何らかのリアクションと対策をとらなければなりません。実際にマニュアルで事象を確認し、スパムと断定できるのか?改善すべき余地がありそうか明らかにする業務です。1日の多くの時間を費やすことにもなりますが、この他に特定のSERPsなどを順に手動でチェックもしています。特に上位にランキングされたサイトなどは注意深くチェックし、グーグルの検索結果がスパムサイトに汚染されていないかハンドトゥハンドで日々健康診断をやっているような感じですね。

matt:そうした地道なタスクを行う中で、あるスパム担当は、スパムサイトなどの法則性やパターン・トレンドなどを徐々に発見し全体像をつかめるようになるんです。こうなると、次のアクションであるプロアクティブタスクに移ります。

matt:はい、ではプロアクティブタスクについてですね。この仕事は大きく3つの要素から成り立っています。

1つ目、「特定のサイトがなぜ高順位にランキングされているのか?その要素・要因について明らかにする」
2つ目、「ランキングアルゴリズムモデルの中でどんな抜け穴をスパムサイトが開拓したかをリサーチする」
3つ目、「具体的な課題を定義し、問題の根源にどのようにアプローチして、その問題を解決するか検討する」

という内容です。実はこの探索的な知的プロセスはウェブスパム担当にとっては本領を発揮する実感を味わえるタスクとも言えるかと思います。
時にはエンジニアを巻き込んで、アルゴリズムのマイナーチェンジレベルで課題が解決されることもありますし、スパマーが駆使しているテクニックを明らかにし、特定のブラックハット手法についてその手口を明確に暴いたりと、犯罪プロファイリングのような仕事と言えるかもしれません。

matt:えーと。。まだ言い残したことはなかったかなぁ?。じゃぁ次はエンジニアの話に移りましょう。
エンジニア担当は、まずひたすら徹底的にデータを監視し、スパムライクなパターンがあるかを見る仕事を担当します。そうですねぇー、だいたいやっていることといえば、特定のスパムに対してどういう解決策があるか実際にコーディングしたり、スモールテストをしたりしています。これは、既存のアルゴリズムだけですべての問題が解決できるわけでもないので、そうした細かなスパム改善のための積み重ねについてアイデアを実際にコードにしてテストして行く作業と考えてください。例えば、ペンギンなんかは、スパム対策としては有効なアルゴリズムですが、ハックサイトについては役に立ちません。あなたがもしウェブスパムチームのエンジニアでしたら、こうした問題について「たとえば、どうすればもっと正確にハックサイトを定義し抽出できるか?」といったアイデアを実際に考え、コーディングしてテストを行うことができるのです。

それからエンジニアチームでは問題解決のために、さまざまなサポートを受けることができます。例えばハックサイトとそうではないイノセントなサイトをより明確に選別するために、実際にアルゴリズムを書く際に、必要となるあらゆるすべてのシグナルを活用し、モデリングしたり、実データでテストも行えます。例えば、どのようにインデックスされたか、サンプルURLが実際にどのようにレイティングされ、その検索結果一覧(SERPs)がベターなもの(検索意図として妥当なもの)となるか?実コードの検証を行うことまでできるんです。更にテストコードで実装した検索結果が実際にユーザーに対して受け入れられるかグーグルの実トラフィックデータを活用して検証もすることが可能です。例えば、実際に利用者がSERPs上のどのリンクをクリックするか?など実被験者によるデータにより仮説が間違っているのか?正しかったのか?クリックされなかったサイトについてはニーズがないということで、コードを再検討したりという繰り返しですね。

全般的には、アルゴリズム全体を小規模なコードを改善テストすることで、改善して行く業務ということになります。また正確にスパムサイトをキャッチし、無実なサイトを間違えてスパム扱いにしないように細心の注意を払うことも重要となります。

どうでしょうか?エンジニアの仕事も非常にエキサイティングでチャレンジングな仕事といえませんか?アルゴリズム処理のパイプライン上の抜け穴をスパマーがどう開拓しているのかその兆候をつかむ。きっかけは、マニュアルスパムチームから指摘もありますし、データチェックサイエンスの中からたまたま発見されるかもしれません。また時には、外部からのちょっとした指摘かもしれませんし、Googleへのフィードバックかもしれませんが、こうした情報を集約し、最新のスパムトレンドをキャッチし解決するという内容です...。

matt:はい、では次はなんでしたっけ?あっそうですね。アルゴリズム改善に関するディシジョンプロセスとアップデートがどのようになされるか?という質問ですね。

我々は、仮にアルゴリズム改善についてGoを出しても、何度も検証します。というのは、新しいアルゴリズムが追加されることで、以前改善したアルゴリズムがカニバルことがないか?適切に作用するか?、また適用したアルゴリズムがきちんと想定どおり作用しているか?など常に検証する必要があるからです。

クオリティチームとアナロジチームが留意していることは、過去に遡って改めて自分たちの理論や根拠ついてに思い込みがないか検証するという点です。つまり簡単にいうと常にゼロベース思考をするという事ですね。
例えば、現時点でその問題をゼロベース思考で考えた場合、このように解決することがベストだとします。その時、過去のアルゴリズムやコードにおいてまだそのままでいいのか?アウトデイト(時代遅れ)になっていないか?ブロークン(論理破綻)していないか?新たな解決策や理論と照らし合わせて検証するのです。

僕らは、単に地雷原のようなフィールドをひたすら探索してスパムを掘り起こしているわけではないんですね。どちらかというと新たなスパムに関したモデルをハイライトして行く(特定の特徴を抽出する)作業というのがマッチするかもしれません。これは非常にタフな仕事なんです。なぜならばWeb上には星の数ほどのスパムが存在し、多くの人が日々スパムを生み出そうとしているからです。

ただ、この仕事はやりがいのある仕事ですよ。世の中に何か貢献したという感じが得られますし、知的な挑戦ができる仕事でもあるからです。それから毎日単調で決まりきった仕事でない点も常に新鮮さと知的探求心をくすぐる魅力があるといえますね。決まりきった仕事は変化が乏しいですし、変化があったとしてスローなペースですしね。

matt:ウェブスパムは非常にダイナミックに変容するもので、1週間スパンでもダイナミンクな変化や事件がおこるのです。週単位でプロジェクトの優先順位が変わることはざらですし、ランドスケープ事態が動くこともあるのです。面白いエピソードがあるのですが、年初にこれはいいアイデアだとみんなが思って取り組んだ仕事に対して、期末に改めて今年はどういう仕事をしたか振り返ってみると、年初に検討した内容とは全く別の内容をやっていたなんてこともざらにあるんですね。(以下若干略)

matt:はい。ではまとめです。グーグルのスパムチームで働くイメージはできましたか?標準的な1日の仕事という点では、答えは、毎日が変化に富んでいて決まりきったような仕事で終わる1日は無い!ということです!

そうですねぇ。近年ではグーグルの陰謀説なるものが唱えられているようですが。。。「私はかくかくしかじかなものですが、自分の名前を検索するといつもひっかかるのですが、私がグーグルに批判的な人物だから?」などといったクレームをもらうことがありますが、そのような問い合わせを気にするような時間や余裕はない!と言いたくなることも正直..時にはありますが..;怒)そんな問い合わせに対しても、実際に検証して、何が起こっているのか検証・診断してデータがおかしなことになっていないか、どうすれば改善できるか検討しているんです;涙)

このようにグーグルに批判的な人、好意的な人からもフィードバックが来るのですが、僕らはそうした問い合わせやフィードバックの中から何が本質か常に考えるようにしているんです!人々が留意している事や気にしている点などの本質を捉えることで、グーグルを利用していただく利用者のストレスを取り除いたり、安心・信頼してグーグルを使ってもらうことも僕らの重要な使命となっているんですね。

matt:それからここまで来たらもう一つ話しますが...。グーグル陰謀説第2弾。アドセンスで広告を購入すればするほど、オーガニックでも高順位にランクインされやすいのでは?という件について。
これは、広告ビジネスとオーガニックについての独立性の議論です。この議論については深入りするつもりはないのですが(We have some principles that we just do not want ever calling the questions:ちょっとした決まりがあってウェブスパムチームからこの話題についてお話することはできないのですが..)、一つ言えることは、どんなウェブサイトでであっても、クリーンでエレガントでシンプルな手法で上位ランクを得るチャンスはあるということです。ぜひあなたも我々のチームのように、こうした疑念をお持ちのようでしたら、検索結果を振り返りチェックし、そのようなことが本当に言えるのか検証してみてください。非常に弱い兆候から事実が理解できる人もいるかもしれませんし、明らかにそのような事はないと明確に分かる人もいるでしょう。

どうでしょう?知的で、タフな仕事ではありませんか?おそらく人々はスパムを作ることをやめないでしょうし、我々の仕事は無くなることはないのでしょうね。
僕らは個別のスパムやスパマー探しをして問題をつぶしているわけではなく、問題の本質の根源を探ることがミッションなのですね。みなさん良くイメージするのはウェブサイトの信頼性やWeb上の人々、Web上に展開してるソフトウェアパッケージが信頼できるものであるか、そしてグーグルのランキングを照らし合わせて、穴が開いている個所を常にふさいでいるようにお考えの人もいるかと思いますが、そのような個別の事象について我々チームが一つ一つ手を動かしているかというとそうではないということが少しはご理解いただけたでしょうか?

matt:最後に世界中でスパムについて日々取り組むファンタスティックなメンバーの皆様!お疲れ様です。そして感謝!の念をここで述べておきますね!

ネズミ小僧:「Googleアルゴリズムアップデートプロセスから読み解く」でもアルゴリズムのアップデートプロセスのイメージと共に、サーチクオリティチームがどのようなプロセスで働いているか紹介しましたが、本日のビデオではグーグル社の検索サービスにおけるCS的な役割も担うタフなお仕事であることを実感させていただけました。

また「些細な、くだらない?」問い合わせであっても時間を割いて何かの兆候かもしれないと検証している姿勢については、マット・カッツさんは「毎日が同じことの繰り返しでないエキサイティングな職場だ!」と言っていますが、逆を返せば、非常に知的でありながら結構泥臭い地道な作業もやっているということだと理解させていただきました。

1点腑に落ちない点は、広告サービスとオーガニックに関する独立性についてです。この部分は若干、奥歯にものが挟まったような言い方でしたが、ウェブスパムチームの立場でははっきりとは言えないにしても、グーグル陰謀説が巷でさけばれているのなら「そんなことはありませんと明確に否定してほしかったところです。」

私も仕事がらメディア対応などを行うことがありますが、今回の話し方ですと、

意地悪な記者は、

マット・カッツ氏広告出稿とオーガニックの独立性について明言避ける!
~検証すればそのようなことはないと分かるはずと発言~
やはりグーグル陰謀説は正しいの”か?”

とトップ見出しにされてしまうかもしれません。ただ、一方で、余計な情報を発言せず、「我々チームが日々行っているように検証すれば、弱いシグナルかもしれないし、強いシグナルかもしれないが、そうでない事実が理解できるでしょう」という答え方はスマートな回答といえますね。誰もそこまで検証しないでしょうし、検証しても黒でないという自信を誇示していると受け取ることもできます。

しかし、規定によりアドワーズとオーガニックの独立性について明言できる立場でないということは、やはりこの件はいろいろな方面で話題になりやすいデリケートな内容ということなのでしょうか。今後立場が変わったら、是非明言いただきたいものです。

, ,


関連記事