主要検索エンジン 2006年上半期 Crawler の動向
自分が管轄する 3つのサーバー、6つのサイト(バーチャルドメイン含む) のログを集計、分析した結果のクローラーの観測メモです。
Inktomi Slurp (Yahooのスパイダー)
現在の所 2005年下半期から大きな変化は観測していません。
MSNbot (MSNのスパイダー)
現在の所 2005年下半期から大きな変化は観測していません。
googlebot (Google のスパイダー).
Google サイトマップサービスを始めた 6月頃から、一部のインデックスだけが更新され、古いインデックスは全く変わらない状況が続いており、検索品質が大幅に低下していたGoogleですが、大幅にインデックスを作り変える兆が見えてきました。
2月1日 Googlebot の役割に変化
2006年1月に入って大きな変化を観測しました。長い間、変わらなかった以下の Crawler の役割が変わって来たようです。
- "Googlebot/2.1 (+http://www.google.com/bot.html)"
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
- 訪問されてもインデックスされない。大量に訪問する。
- "Googlebot/2.1 (+http://www.google.com/bot.html)"
- これまでクロールすることのなかった長い動的URL のページを集中的に訪問するようになった。トップページだけの訪問も続いています。
- フィルタリングミスで自分の勘違いでした。トップページのみの訪問です。
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
- これまで Mozilla/5.0 ではインデックスされなかったが、2006年12月末 から訪れたページがインデックスされはじめている。自分の管理するサイトでインデックスされたのは実に半年ぶり。
- また、2月1日から、これまでクロールすることのなかった長い動的URL のページを集中的に訪問するようになった。Mozilla/5.0 の役割が変わっている事を観測。
2月1日 Googlesitemap サービスとの関連
Google サイトマップとの関連を示す兆候は感じられません。理由は、サイトマップに含んでいないページも対象になっており、Googleサイトマップサービスを利用していないサイトも対称となっているからです。
しかも、これらは、バーチャルホスト(同一サーバ)で運営しているサイトだけで観測されています。興味深いです。他のCrawler と比べ明らかにクロール能力の低かった Googlebot ですが、改善しつつあるようです。あと、googleは注文が多すぎるような気がするのは自分だけでしょうか。
2006年 2月 1日 (2006年 2月 2日更新)