2003年から、自分の管轄するサーバーで主要検索エンジンのクローラーをログ、パケットレベルで情報を収集してきました。特に、2005年下半期は Google のサイトマップサービス開始、MSN の新検索システムの正式稼動、Yahoo! のロボット型検索システムの改良など、これまでの観察してきたなかでも、最も変動の大きかった期間となりました。
関連 => 検索分野の最大ニュースは「Yahoo! JAPANの検索エンジン変更」
自分が管轄する 3つのサーバー、6つのサイト(バーチャルドメイン含む) のログを集計、分析した結果のクローラーの動向についてまとめていますが(このサイト含む)、対象となるサイト、ページへのリンクによって、どのCrawler の訪問周期は異なります。
そのため、全てのサイトに当てはまるという訳ではありません。その点に注意してお読み下さい。
ここで分析対象となっているサイトのタイプは、外部からのリンクがほとんどない、主要ディレクトリ型検索サービスには登録されている、といったサイトです。個人サイト、中小企業のサイト に該当するかと思います。
ディレクトリ型、初心者に利用者が多いというイメージの強い Yahoo! ですが、2004年からGoogleと同様にロボットによる検索サービスを開始し、現在では質の高いディレクトリ検索と混在した検索結果が得られるようになっています。
Inktomi Slurpの特徴は、クロールの周期は早いのですが Crawler に回収されてから検索結果に反映されるまでに時間がかかり、最短でも1ヶ月かかっています。また、訪問から1ヶ月以上経過してもインデックスに反映されてないページがも数多く存在しています。
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)"
6~8月までは、月に2~3回、9~10月は、月に7~10回、11月~1月現在は、毎日となっています。規則正しく、しかも訪問頻度が増えています。
更新頻度の少ないページは、月に1度。これも規則正しいという結果が出ています。
クローラーが訪問して、速い場合で1ヶ月、3ヶ月近く経過してもインデックスされないページも多くあり、規則性は感じられません。
Inktomi Slurp / Googlebot に比べ、非常に高いクロール能力を持っています。 Inktomi Slurp / Googlebot が見つけられない、動的なURLも率先して取得しています。
また、If-Modified-Since は要求せず HTTPレスポンスコードは常に 200 、つまり、ページの変更に関係なく強制的にダウンロードするという特徴があります。サイトの更新状況を把握する気は無いようです。
私の管理する複数のサイトでは、Crawler の中では最も訪問頻度が高く、ほぼ毎日20~50ページ単位での訪問が半年近く続いています。もっともトラフィックに負荷をかけるCrawler といえます。 激しい時で数百ページを短期間に回収(1分間に15ページを観測)する事もしばしば。
当初、『 常に新鮮な情報を提供する 』 を売り言葉にしていました。beta版の頃は、すばやい回収で、直にインデックスされおり 看板に偽りなし でしたが、beta サービスから本格サービスに移行してから、予想通りフィルタがかけられ (つまり篩いにかけられ殺ぎ落とし) これまで登録された全てのインデックスが削除されました。
全てのインデックスが削除されても、MSNbot の訪問頻度は従来と変わらず、毎日無駄なトラフィックをかけるだけのただの嫌がらせとなっています。そんなに頻繁にダウンロードするなら、インデックスしろよ、という事です。
"msnbot/0.9 (+http://search.msn.com/msnbot.htm)"
2005/12/20 に10ヶ月ぶりに観測
"msnbot/1.0 (+http://search.msn.com/msnbot.htm)"
1~3日感覚で頻繁に訪問しています。同じページを 1 日に 6 回 も短時間にダウンロードすることがあります。
更新頻度の少ないページは、月に1度。これも規則正しいという結果が出ています。
βサービスの頃は、4~7日でインデックスされていましたが、現在は頻繁に回収するもののインデックスされない。
自分が観測した限り、MSN や Yahoo!、AltaVista など他の検索エンジンと比べると Crawler の巡回能力は高くありません。Googlebot には、Mozilla/5.0 を名告る Crawler と名告らない Crawler が存在し、後者が回収したページは、4日~1週間という極めて短期間でインデックスされるのが特徴です。
階層が一つ深くなる毎に1ヶ月遅れで訪れていた Crawler は、 Google Sitemap サービス開始以降、極端に Crawler の能力は低下している事を複数のサイト全てで観測しています。つまり、Google が現状を改善しない限り、ページを作成しても 7ヶ月以上は検索結果に反映されることはない、ということになります。
Sitemap サービスを使用して半年経過しますが、どのサイトも効果でていません。
参照 => Google サイトマップサービスの効果 2005年下半期
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
"Googlebot/2.1 (+http://www.google.com/bot.html)"
2006 / 1/ 22 追記
複数のサーバーで、1月に入ってから 4~7日の間を空けて 10~20ページほど短期間でMozilla がクロールするようになりました。調べてみるとこれまでインデックスされることのなかった Moxilla/5.0 に回収されたページがインデックスされているのを初めて確認!!ぐぐって見ると、気になる記事が、、Google は新しくインデックスを作り直している??
1週間以内に更新のあるページは、毎日 Googlebot/2.1 が訪問しています。しかし、更新のないページは、1ヶ月の感覚で定期的に訪れています。トップページのみ サイトマップサービスの効果が出ているように思います。 (何れのサイトも外部からのリンクは殆どなく条件は同じ)
7月末あたりから、サイト内のクロールはゼロになりました。7月以降追加されたページも、変更されたページも検索対象にならない状態が続いています。このサイトではクロールのタイミングで6月に作成されたページも登録されていません。
ページ間で自由にリンクが構築できるブログの優位性が際立っています。
Googlebot/2.1 が訪問すれば、3~7日程度でインデックスされ検索対象となります。トップページは、頻繁にインデックスされています。
2006年 1月 3日 (1月 22日更新)