「Co-Citation and Co-Occurrence」今後の検索に及ぼす変革とは？

2013年06月21日　ネズミ1号：略称「T」
アルゴリズム動向&解説, ピックアップ, 最新動向

リンクに頼らないクオリティランキング・Xデーはやってくるのか？

刺激的なタイトリングをさせていただきましたが、最近セマンティック技術を活用したサイテーション（co-citation）や共起（co-occurance）に関する言及を目にする機会が増えたので久しぶりに古いデータを探して2008年当時のセマンティックウェブセミナービデオや資料などを眺めてみつつ、今回はこのテーマについてさまざまな意見などにも言及しながら考えをまとめて見ることにしました。2008年当時セマンティックウェブという言葉が流行りはじめたのを今でも記憶しています。「検索ワードの意図や意味を人間のように解釈しようという試み」が次のテーマか！と思いつつ、この分野はここ数年仕事柄あまり使わないので放置状態でしたが、着実にSemanticWebな技術は、進化し、現在Googleなどによってフィールド実験が行われるまでになったようです。

SemanticWebとは

改めて、SemanticWeb（セマンティック・ウェブ）について、これは私の解釈ですが、Web検索に於けるキーワードの意図を解釈する技術。これに、解釈されたキーワードが意図している「物」や「事」に関する最適な情報を探し出す技術が融合できれば、理想的な検索経験ができるようになるのでしょうね。ユーザーにとって使いやすい、自然なインターフェースが実現することも夢ではないかもしれません。最近話題のGoogle GlassやGoogle Talk、アップルのsiriなどは、会話音声による検索・質問という形での入力が主なインタフェースとなるので、検索クエリは、今までとは全く違った要素で構成されることになりそうです。またセマンティックな観点でその意味を解釈しようとすると、場所や時間、その個人の生活パターンなどを検索語彙に関連付して意図を解釈するというロジックが必要になってくるのも分かります。

次なるSEO変革とは？

マット･カッツ氏や、SEOMoz(現Moz)、SEOJournalなどに執筆している著名人の発言を見ていると次のような趣旨を見かけることが多いのですが、皆さんはどう解釈していますでしょうか？

"「Googleはリンク投票によるポピュリズム主義から、対象の本質を理解し判断する方向へシフトしようとしている。」

"「リンクや文字列の集合体であるコンテンツで品質を測ることは現時点の過渡期的な技術であり、彼ら（Google）は、文脈･意図を直接解釈しようとしている。」

これらが共に明示している事は何か？私なりの解釈として次のように考えてみました。

＜基礎技術＞
・従来の文字面文脈から、オントロジーを活用したコンピューティングよるコンテキストを把握する技術が実用段階に来ている。

＜基礎データ＞
・スマホやタブレットといったデバイスからの検索行為情報を蓄積し、ナレッジグラフと何らかの形で関連付けようとしている。

＜ロジック＞
・ナレッジグラフの基本データは、情報機関、各種政府機関の公開データベースやWikiなどの集合知を活用し、リアルな世界に存在する「資料、人、物、事」歴史上の「人、物、事」といったバイオグラフまで検索行為情報と関連付けることで、検索ワードの意図を適切に解釈しようとしている。

＜現在明らかになっている事＞
・rel="author"などのシグナルを活用することで、近い将来、ネットワークに存在する文章や情報などについてもセマンティックな文脈で内容や意味が理解されるようになる。

＜近い将来？＞
・その内に、アンカーテキストリンクに頼らない共起によるランキングクオリティ評価も可能となるかもしれない。

※オントロジーとはオブジェクト同士をエンティティと呼ばれる関連性を表す要素により意味付けをすること（リレーショナルデータベースを手がけている人なら分かるとおもいますが、ここでは詳細は割愛します。）

著名SEOブロガーはどう捉えているか？

こうして整理して見ると今後はこういう流れなのかなぁと個人的に考えてみましたが、実際、実状はどうなのでしょうか？参考までに、海外のSEO権威による記事を紹介します。

「アンカーテキストよさようなら！これからはサイテーションによる革命明らかになる！」
Good Bye Anchor Text, Welcome Co-Citations: Revolution in Link Building for 2013 Revealed
「コ-サイテーションとコ-オキュランス。SEOにおける次のビックウェーブ！」
Co-Citation ＆ Co-Occurrence The Next Big Thing in SEO

何れの記事も、既存の理論では検証しにくいSERPS（検索結果）について憶測という範疇で解説がなされています。そして、アンカーテキストはもう機能しないとか、リンクのないサイテーションをランキングシグナルとしてGoogleが活用し始めたのでは？といった調子で、SEOの世界に変革がもたらさせるのでは！？と問題提起がなされています。
果たして、こうした技術が実装されて、現時点でランキングアルゴリズムに実際に導入されて運用するまでに至っているのでしょうか？

ことSEOについて、この機会にいろいろと調べて見たのですが、2012年末にJosh-u-a (Joshua Giardino)さんよって書かれた記事で検証されている内容が信用できそうでしたのでご興味のある方はご覧になってみてください。

「原因はCo-Citation：共起によるスコアリングでは無い！でもこれは現時点での予想の範疇に留まるが、SERPSに今何が起こっているのか？」
It’s Not Co-Citation.. but it’s still awesome! (Or what’s really going on in the SERPs?)

私は、Joshua氏が検証した通り、リンクに頼らないランキングの実装はまだされていないだろうと考えています。なぜなら、彼のOSEによるバックリンク分析などのケーススタディはそれなりに信用できると思ったからです。また、この文章の中で彼は続けてこう結論付けています。

こうした意味解釈技術は、Penguin2.0アップデートに関わる不自然なリンクをフィルタリングする技術に応用されているようだ。」

まだこの件は公になっていませんが、私自身、オントロジー技術が、現時点では、Googleのランキングアルゴリズムのホストクオリティ・KWトピックに関連したページクオリティをスコアリングする際に、異常な要素を排除する技術として実用化されたという趣旨が妥当だと考えています。

マット・カッツ氏は、Penguin2.0はある意味革新的なメジャーアップデートとなるだろうと予測していましたが、上記のように考えると確かに数年にわたり蓄積してきた技術の集大成といっても大げさではないと思えなくもありません。

また、同時にマッツ・カッツ氏はGoogle Web Master Helpビデオの中で、Googleナレッジグラフの可能性についても言及しています。
Googleナレッジグラフについては、WikiPedia上で次のように説明されています。

ナレッジグラフとはGoogleが運用するナレッジベースであり、検索エンジンのSERPSにおいてセマンティックな検索情報活用すべく、全世界からさまざまなソースを集めたものです。
ナレッジグラフの目的は、SERPS上で想定できるあらゆる情報をまとめて表示させることで検索者に自分の検索ワードの明確にするための”解”を提示することである。

これはあたかもユーザービリティ観点で、SERPS上のUXの改善が目的のように説明されていますが、こちらのビデオを見るとGoogleの壮大な計画の一部が垣間見れると思います。
※日本語字幕翻訳がついていますので、是非ご覧ください。

ビデオの中で印象的なのが、「人類の英知を蓄積したWebで人々が何を検索しているのかを見れば、データベースのどんな情報を含めるべきかわかります。」という節です。
このようにGoogleによるコンピューティング技術は、セマンティックな文脈での意味の解釈を情報科学分野のおそらくオントロジーを活用して、モデリングできる箱を用意したといっていいのかもしれません。

オントロジーは、ERなどRDBMSやデータモデリングの際に出てくるインスタンスやエンティティという概念や関係性を示す（リレーション）などの概念により世の中の物や事象をデータ構造化（モデリング）するのに役立つ考え方だと言えます。これは、検索技術におけるセマンティックな語彙解釈研究がまさに現在、フィジビリティ段階に突入しているのだと考えられる一節だと個人的には受け止めさせて頂きました。

今回の私の結論です。

現在実装されている又は進んでいる事

Googleナレッジグラフは、オントロジー・セマンティックな意味付け解釈をするためのデータ取得を目的としてGoogleが立ち上げた
現段階では、Penguin２．０について、実績の一部として、セマンティックな語彙解釈ロジックが実装されたらしい。この実装により、これまでマニュアルオペレーションしていた不自然なリンク、特にスパミーなアンカーテキストリンクのフィルタリングについて、コンピューティングによりかなりの精度で認識できるようになった。

まとめ

セマンティックウェブな世界観、オントロジーによる物や事の意味解釈はこれからも着実に具現化すべくデータの蓄積と共に開発が進められている。
リンクによるシグナルとの効果的な組み合わせが近い将来の“解”となるかもしれない。

といった流れが今後のクオリティランキングにおける主要なテーマになるのではないでしょうか？

近いうちに、これら仮説が立証されるような断片がマット・カッツビデオや実際のSERPS上、そして、Googleがリリースする新たなサービスなどにより一つ一つ明らかになって行くのかもしれません。既にGoogle社が米国でGoogleナレッジグラフを発表してから１年近く立っていると思いますが、「単なる文字列の並びから、物事を解釈する」という壮大な理念を実現すべく、日々データが蓄積されていると解釈すると、そんなに遠い未来ではないのかもしれませんね。

さて、皆さんはどう思いますか？

このテーマは新たに画期的な情報を目にすることがあれば、随時更新予定です。私はこう考えているなどのご意見があればこちらから是非投稿ください！

＃追伸：今後しばらく、以下のトピックはウォッチして行きたいと思います。
●KnowledgeGraph
├Semantic integration　（SemanticWeb）
└ Linked data

＃またまた追伸
Anthony Long氏によるSIRIなどモバイル端末に実装したクラウドな音声解析エンジンにより、Googleの検索QWやトピックスコアリングがリフレッシュされる様などが図説などにより面白く解かれていました。

「Googleの来るべき変革にどうそなえるか？」
How to Prepare for Google’s Search Makeover

SEOJapanなるサイトでそのまま翻訳して紹介されていましたので、英語が苦手な方はこちらもどうぞ。

＃追加情報：SEMANTIC technology & business よりセミナー招待メールがありました。
しばらく無視していたものですが、6月にもう開催されてしましましたが、このフォーラムの中でGoogleのナレッジグラフプロダクトマネージャーのJason Douglasが「構造化されたデータでGoogleは何をやろうとしているのか？」というお題目で講演したようです。

メール本文にキーノートのサマリがありましたので、翻訳して添付します。

スマートフォンの普及やタブレットなどユビキタスコンピューティングが普及した今、インターネットは人々の毎日の暮らしの中でシームレスに使われるようになってきている。
その中で、今後われわれの必要とするロジックでは、より多くの文脈を解釈する必要が増している。
検索意図を理解するために、個々の人々の現実世界の生活空間、例えば、場所、時間、そしてその人がどんな事や物に関心があるのかを把握し、モデルリングすることが重要と考えている。
このセッションでは、Googleナレッジグラフと日々蓄積されるデータによりGoogleが提供する様々なサービスにどう生かされて行けるかレビュー予定だ。

アルゴリズム動向&解説, ピックアップ, 最新動向

前ページへ戻る　

PaydayLoanAlgolithm3.0が正式ローンチ...
SearchEngineLand:数週間前にペイデイローン2.0がっ！と話題になりましたが、先週あたりに3.0がローンチされたそうです。これで完全にスパミーなクエリーワードで検索してもSERPsで拾わ...
（2014年06月17日　ネズミ1号：略称「T」）
先週末ロールアウトしたアルゴリズムまとめ:Panda4.0とPayDayLoanアルゴリズムについて...
Googleマット・カッツさんのTwitterによると、先週末パンダ4.0ついてメジャーアップデートしたそうです。パンダは通常運用になったので、影響が出る時だけきちんとアナウンスするということでしたが...
（2014年05月21日　ネズミ1号：略称「T」）
Google検索結果画面仕様変更はモバイルを意識した対策か!?...
昨日はWallStreetJournalの記事でグーグルのデスクトップレベニューが減少に転じ、モバイルレベニューが急成長していることを紹介しましたが、数週間前から話題になっているSERPsの一部仕様変...
（2014年03月15日　ネズミ1号：略称「T」）
クエリーワードベースの検索の大きな課題とグーグルセマンティック検索へのアプローチ方法について...
searchenginland:久々にEric氏の記事を目にしましたが、今日はGoogle Semantic Searchという本を題材に今後10年程度かけてセマンティックな文脈で検索がどう変わるのか...
（2014年03月02日　ネズミ1号：略称「T」）
腐敗するゲストブログを活用したリンクビルディング。被害に会わないためのリスク管理体制が必要に!?...
MattCuttsBlogより：昨年よりゲストブログやArticleDirectory、コメントなどを活用したリンクビルディングについてマット・カッツ氏よるいくつもの言及がなされており、SEOコンサル...
（2014年02月02日　ネズミ1号：略称「T」）