ピックアップ,最新動向,突撃!マット・カッツ

リンクのついてないページの品質をグーグルはどうやって見ているのですか?

2014年06月05日 ネズミ1号:略称「T」
, ,
このエントリーをはてなブックマークに追加

film.png今日はインドのアシシュさんからの質問です。「記事にリンクがそんな張られていない時、グーグルはコンテンツのクオリティをどうやって判断しているのですか?」
matt: はい、良い質問ですねぇ。サーチエンジンとは?リンクとは云々ばかり語る前にそもそもそのコンテンツが良いか悪いかどう判断するのでしょう?という観点の質問ですね。人間のあなたなら書かれているテキスト(文章)をみて判断しますよね。グーグルも実はページに書かれているテキストをそんな風に見ているんです。



matt:どうやって?はい、それは。。例えば、テキストの中のフレーズやワードを数えたりしてますね。特定のワードがどれぐらいあったとか、さまざまなフレーズ、ワードの出現率を徐々にみていきながら、ある特定のフレーズ群が極端に多いとキーワードスタッフィングだと判別するとか、そういった具合ですね。その他には、評判のいいドメイン上にあるコンテンツなのかなど参考値としてみることもあります。

matt:また、時にはあまり入力されないレアなクエリーワードや専門的?でレアなフレーズなどが含まれている場合は、そうしたフレーズによるクエリーに対して、優先的にSERPs上へ掲載することもありますね。この場合、たとえ多くのリンクがなくとも、Web上に存在しないレアなフレーズなので、まぁおそらくそのフレーズに関連するレレバントなページだろうと判別するような具合ですね。

はい、まだまだ課題はあるとは思いますが、コンテンツ単体をどう判断するかという質問には、そのページに書かれているテキストを見て判断しているんです!というお答えになりますね。

ねずみ小僧:今週はドタバタしていて掲載が遅くなりました。もう1つビデオが出ていましたので、これからもう一つ翻訳です。ビデオではマットさんはキーフレーズの出現率のことしか語っていませんでしたが、共起語とか形態素解析後のエンティティによる文章理解とかなどについても言及してほしかったです。ナレッジグラフとかスキーマorgみたいな構造化データを推奨しているようですが、まだ文脈を解釈するまでには至っていないのでしょうか?Siriなどのライブラリーを見ていると大分フレーズの文脈解析がコンピューティングで実現できるようになっているようですが、Androidなどの「Hello!Google」からはじまる対話型検索では、クエリーワードのフレーズ文脈理解を徹底し、あとは構造化データのエンティティやメタインデックスから結果を返す方がニーズを満たしやすいという戦略なのかもしれませんね。なぜならば、癖のある文章をライブラリを駆使して判別するよりは、コンテンツ自体は構造化のルールに従って作り手に対応してもらった方がレバレッジが効きそうですからね。このあたりのグーグルの考え方なども是非次の機会に聞いてみたいものです。

ただ、パンダアルゴリズムにもあるように、文章を形態素分解し、シソーラスライブラリを基にフレーズや単語の出現率を計算し、どういった内容について書かれている文章か?ある程度は認識できるようになっていると個人的には推測しているのですが。。ビデオでは似たような文体係数値や、フレーズ出現率係数値などとコンペアしたりマッチングさせて、スクレイピングやキーワードスタッフィング判別をしているような処理があたかも中心のように説明されていましたが。。といっても、ビデオの内容を鵜呑みにしてうかつな行動をとることは控えた方がいいでしょうね。

, ,


関連記事