刺激的なタイトリングをさせていただきましたが、最近セマンティック技術を活用したサイテーション(co-citation)や共起(co-occurance)に関する言及を目にする機会が増えたので久しぶりに古いデータを探して2008年当時のセマンティックウェブセミナービデオや資料などを眺めてみつつ、今回はこのテーマについてさまざまな意見などにも言及しながら考えをまとめて見ることにしました。2008年当時セマンティックウェブという言葉が流行りはじめたのを今でも記憶しています。「検索ワードの意図や意味を人間のように解釈しようという試み」が次のテーマか!と思いつつ、この分野はここ数年仕事柄あまり使わないので放置状態でしたが、着実にSemanticWebな技術は、進化し、現在Googleなどによってフィールド実験が行われるまでになったようです。
改めて、SemanticWeb(セマンティック・ウェブ)について、これは私の解釈ですが、Web検索に於けるキーワードの意図を解釈する技術。 これに、解釈されたキーワードが意図している「物」や「事」に関する最適な情報を探し出す技術が融合できれば、理想的な検索経験ができるようになるのでしょうね。ユーザーにとって使いやすい、自然なインターフェースが実現することも夢ではないかもしれません。 最近話題のGoogle GlassやGoogle Talk、アップルのsiriなどは、会話音声による検索・質問という形での入力が主なインタフェースとなるので、検索クエリは、今までとは全く違った要素で構成されることになりそうです。またセマンティックな観点でその意味を解釈しようとすると、場所や時間、その個人の生活パターンなどを検索語彙に関連付して意図を解釈するというロジックが必要になってくるのも分かります。
マット・カッツ氏や、SEOMoz(現Moz)、SEOJournalなどに執筆している著名人の発言を見ていると次のような趣旨を見かけることが多いのですが、皆さんはどう解釈していますでしょうか?
"「Googleはリンク投票によるポピュリズム主義から、対象の本質を理解し判断する方向へシフトしようとしている。」
"「リンクや文字列の集合体であるコンテンツで品質を測ることは現時点の過渡期的な技術であり、彼ら(Google)は、文脈・意図を直接解釈しようとしている。」
これらが共に明示している事は何か?私なりの解釈として次のように考えてみました。
<基礎技術>
・従来の文字面文脈から、オントロジーを活用したコンピューティングよるコンテキストを把握する技術が実用段階に来ている。<基礎データ>
・スマホやタブレットといったデバイスからの検索行為情報を蓄積し、ナレッジグラフと何らかの形で関連付けようとしている。<ロジック>
・ナレッジグラフの基本データは、情報機関、各種政府機関の公開データベースやWikiなどの集合知を活用し、リアルな世界に存在する「資料、人、物、事」歴史上の「人、物、事」といったバイオグラフまで検索行為情報と関連付けることで、検索ワードの意図を適切に解釈しようとしている。<現在明らかになっている事>
・rel="author"などのシグナルを活用することで、近い将来、ネットワークに存在する文章や情報などについてもセマンティックな文脈で内容や意味が理解されるようになる。<近い将来?>
・その内に、アンカーテキストリンクに頼らない共起によるランキングクオリティ評価も可能となるかもしれない。
※オントロジーとはオブジェクト同士をエンティティと呼ばれる関連性を表す要素により意味付けをすること(リレーショナルデータベースを手がけている人なら分かるとおもいますが、ここでは詳細は割愛します。)
こうして整理して見ると今後はこういう流れなのかなぁと個人的に考えてみましたが、実際、実状はどうなのでしょうか?参考までに、海外のSEO権威による記事を紹介します。
何れの記事も、既存の理論では検証しにくいSERPS(検索結果)について憶測という範疇で解説がなされています。そして、アンカーテキストはもう機能しないとか、リンクのないサイテーションをランキングシグナルとしてGoogleが活用し始めたのでは?といった調子で、SEOの世界に変革がもたらさせるのでは!?と問題提起がなされています。
果たして、こうした技術が実装されて、現時点でランキングアルゴリズムに実際に導入されて運用するまでに至っているのでしょうか?
ことSEOについて、この機会にいろいろと調べて見たのですが、2012年末にJosh-u-a (Joshua Giardino)さんよって書かれた記事で検証されている内容が信用できそうでしたのでご興味のある方はご覧になってみてください。
私は、Joshua氏が検証した通り、リンクに頼らないランキングの実装はまだされていないだろうと考えています。なぜなら、彼のOSEによるバックリンク分析などのケーススタディはそれなりに信用できると思ったからです。また、この文章の中で彼は続けてこう結論付けています。
こうした意味解釈技術は、Penguin2.0アップデートに関わる不自然なリンクをフィルタリングする技術に応用されているようだ。」
まだこの件は公になっていませんが、私自身、オントロジー技術が、現時点では、Googleのランキングアルゴリズムのホストクオリティ・KWトピックに関連したページクオリティをスコアリングする際に、異常な要素を排除する技術として実用化されたという趣旨が妥当だと考えています。
マット・カッツ氏は、Penguin2.0はある意味革新的なメジャーアップデートとなるだろうと予測していましたが、上記のように考えると確かに数年にわたり蓄積してきた技術の集大成といっても大げさではないと思えなくもありません。
また、同時にマッツ・カッツ氏はGoogle Web Master Helpビデオの中で、Googleナレッジグラフの可能性についても言及しています。
Googleナレッジグラフについては、WikiPedia上で次のように説明されています。
ナレッジグラフとはGoogleが運用するナレッジベースであり、検索エンジンのSERPSにおいてセマンティックな検索情報活用すべく、全世界からさまざまなソースを集めたものです。
ナレッジグラフの目的は、SERPS上で想定できるあらゆる情報をまとめて表示させることで検索者に自分の検索ワードの明確にするための”解”を提示することである。
これはあたかもユーザービリティ観点で、SERPS上のUXの改善が目的のように説明されていますが、こちらのビデオを見るとGoogleの壮大な計画の一部が垣間見れると思います。
※日本語字幕翻訳がついていますので、是非ご覧ください。
ビデオの中で印象的なのが、「人類の英知を蓄積したWebで人々が何を検索しているのかを見れば、データベースのどんな情報を含めるべきかわかります。」という節です。
このようにGoogleによるコンピューティング技術は、セマンティックな文脈での意味の解釈を情報科学分野のおそらくオントロジーを活用して、モデリングできる箱を用意したといっていいのかもしれません。
オントロジーは、ERなどRDBMSやデータモデリングの際に出てくるインスタンスやエンティティという概念や関係性を示す(リレーション)などの概念により世の中の物や事象をデータ構造化(モデリング)するのに役立つ考え方だと言えます。これは、検索技術におけるセマンティックな語彙解釈研究がまさに現在、フィジビリティ段階に突入しているのだと考えられる一節だと個人的には受け止めさせて頂きました。
といった流れが今後のクオリティランキングにおける主要なテーマになるのではないでしょうか?
近いうちに、これら仮説が立証されるような断片がマット・カッツビデオや実際のSERPS上、そして、Googleがリリースする新たなサービスなどにより一つ一つ明らかになって行くのかもしれません。既にGoogle社が米国でGoogleナレッジグラフを発表してから1年近く立っていると思いますが、「単なる文字列の並びから、物事を解釈する」という壮大な理念を実現すべく、日々データが蓄積されていると解釈すると、そんなに遠い未来ではないのかもしれませんね。
さて、皆さんはどう思いますか?
このテーマは新たに画期的な情報を目にすることがあれば、随時更新予定です。私はこう考えているなどのご意見があればこちらから是非投稿ください!
# 追伸:今後しばらく、以下のトピックはウォッチして行きたいと思います。
●KnowledgeGraph
├Semantic integration (SemanticWeb)
└ Linked data
#またまた追伸
Anthony Long氏によるSIRIなどモバイル端末に実装したクラウドな音声解析エンジンにより、Googleの検索QWやトピックスコアリングがリフレッシュされる様などが図説などにより面白く解かれていました。
SEOJapanなるサイトでそのまま翻訳して紹介されていましたので、英語が苦手な方はこちらもどうぞ。
#追加情報:SEMANTIC technology & business よりセミナー招待メールがありました。
しばらく無視していたものですが、6月にもう開催されてしましましたが、このフォーラムの中でGoogleのナレッジグラフプロダクトマネージャーのJason Douglasが「構造化されたデータでGoogleは何をやろうとしているのか?」というお題目で講演したようです。
メール本文にキーノートのサマリがありましたので、翻訳して添付します。
スマートフォンの普及やタブレットなどユビキタスコンピューティングが普及した今、インターネットは人々の毎日の暮らしの中でシームレスに使われるようになってきている。
その中で、今後われわれの必要とするロジックでは、より多くの文脈を解釈する必要が増している。
検索意図を理解するために、個々の人々の現実世界の生活空間、例えば、場所、時間、そしてその人がどんな事や物に関心があるのかを把握し、モデルリングすることが重要と考えている。
このセッションでは、Googleナレッジグラフと日々蓄積されるデータによりGoogleが提供する様々なサービスにどう生かされて行けるかレビュー予定だ。