昨年(2005年) 6月 にGoogle サイトマップサービスが開始され、11月17日には、日本語サービスも始まっています。私も 6月 5日のサービス開始当初から、複数のサイトでこのサービスを利用してきました。
このサイト(このページ)でも Google が配布している sitemap.xml を生成するツール Google Sitemap Generator の導入方法について 紹介していましたが、現在は日本語サービスとして公開されていることもあり、これを機会に再度 Google サイトマップサービスについてまとめ直す事にしました。
URL => Google Sitemap サービス (Google アカウントが必要)
URL => サービスに関するGoogle の説明
Google Sitemap サービスとは、どのようなサービスなのか。先ずこの点について説明します。このサービスを一言でいうと、
Google のインデックスに効率的にURLを登録してもらう
つまり、これまで検索対象とならなかったページを可能にするサービスです。2005年 6月にスタートしたサービスですが、googlebot の訪問状況やWebサイトに訪問する検索ワード順位などの情報提供も付加されています。(ログ解析ツールとバッティングするので魅力はありませんが)
Google に代表される検索エンジンは、Crawler(クローラー) と呼ばれるロボット(スパイダー(蜘蛛)とも呼ばれる)が、リンクを自動的に巡回(クロール)することで、インデックスに登録するためのURLを収集します。 Web(蜘蛛の巣)を巡回するのは蜘蛛ということですね。
しかし、サイトの規模やリンク構造、動的に生成されるURLなど様々な理由から、なかなか Google のインデックスに登録されないのが現状です。(特にGoogle のスパイダーは他に比べ弱い) 結果、検索結果に反映されることはなくサイトの訪問数も少なくなります。
検索エンジンに収集されることは、SEO (検索エンジン最適化)以前に必要となる問題であり、Google サイトマップは Webマスターにとっては無視出来ないサービス と言う事になります。
自分で作成するサイトマップ、つまり、html で記述する従来のサイトマップは、100以上のリンクがあると その先はクロールしない という事になっていました。しかし、ここで作成する XML Sitemap ファイルでは、一つの XML Sitemap ファイルにつき、画像を含め 50,000 URL まで記述する事が出来ます。
つまり、Google から見れば、スパイダーが見つけられなかった URL を Webマスター サイドから情報提供を受ける事で Google インデックス数を増やし、検索エンジンとしての品質を向上したい、という目的となります。
Google が提唱しているサイトマッププロトコルは、サイトの更新状況を検索エンジン(スパイダー)に通知するための仕組みでが、AtomやRSS (XML) フィードを利用したものであり、特に技術的に目新しいものではありません。ブログで使用されるトラックバックや RSS と同じ類の技術です。
Google サイトマップでは、サイト内URL の優先度相対関係や、URL毎の更新頻度、最終更新日など 検索エンジンがサイト全体の更新状況を把握するために必要なオプションが定義されています。
Google サイトマップサービスの恩恵を全て受けるには、これらの仕様に則って XML サイトマップファイルを作成する必要があります。
Google サイトマップサービスでは、URLを列挙したテキストファイル(UTF-8)でもサイトマップファイルとして登録し、URLを通知する事が可能です。この場合、上記オプションは利用する事は出来ません。