久方ぶりの更新というか、昨年はほったらかしでした。しかし、各種クローラーのログやパケットレベルでの観測データは収集しています。
さて、ほったらかしだった 2006年の状況ですが、Googlebot の訪問、インデックス状況は 3月以降、徐々に増え始め、2005年 6月に公開したページは 9ヵ月後に ようやく Google で検索可能になりました。
Google Sitemap サービスは効果があると報告されているサイトも多い様ですが、サイトマップサービスで申請したURLに Crawler が訪問しない状況は、私の観測する限りでは 2005年 6月 当初と変わりなく効果はありません。
後述しますが、登録される原因はサイトマップではなく、Googlebot のクローラの大幅な仕様変更によりインデックスされた事も考えられます。
サイトマップにのみ記述されたダミーページ(存在しない)の 404 エラーさえ観測できないので、サイトマップだけで効果がある訳ではなさそうです。外部からのリンクと内部リンクのクロールが大きく影響していると思われます。
水面下(ローカルサーバ)でコツコツ作成していたコンテンツ 約 200ページ分を 2007 年 3月 14日に公開したので、これらのページがインデックスされるまで期間限定で観測をはじめることにしました。
一気にコンテンツを公開する度に Crawler の訪問、インデックスに関心が向く訳でして、登録されると関心が薄れてほったらかし、という毎度のパターンが期間限定の本音です。(笑
どの検索エンジンが飼っている クローラーが最も早くついされたページを見つけ出し、インデックスされるか競争です。
2007年 3月 14日 午後 3時頃、200 ページをサーバへアップロードしました。
Googlebot の役割は随分と変わっているようです。驚いたのは、アップロードした 2時間後には、クローラーが訪問したことです。1分間に新規ページのみを 2ページの間隔でクロールし、172 ページをあっというまにクロールしました。
一台の googlebot が このサイトを集中してクロールしました。このとき、まだ sitemap.xml によるページの申請は行っていません。トップページからのリンクを辿ったということになります。
一つだけ 404 エラーが記録されたページがありました。調べてみると確かに一箇所だけリンクミスがあり、それはページ本文の下の方にあるテキストリンクでした。このような深い層にあるテキストリンクをも短期間でクロールしている事実には驚きです。
66.249.66.233 - - [15/Mar/2007:00:20:36 +0900] "GET / HTTP/1.1" 200 21211 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
GSiteCrawler による内部リンクミスのチェックを行っているのですが、GSiteCrawler の 6 匹のクローラーは このリンクミスを見落としていました。
短期間で一気にクロールしてから 4日になりますが、これ以降来ていません。
普段から訪問頻度の多い Yahoo! Slurp ですが、こちらも Google と同様に URLリストを提出していない状況で は新しくアップしたページへの訪問を確認しました。
こちらは、googlebot に遅れる事、31時間後に訪問。ページ左のタイトルリンク先のページから順に規則正しく訪問しています。4日経過する現在でも、新規ページの訪問が続いており、18日現在、第二階層のリンクページへ訪問している状況です。
4日間で 103ページへ訪問しています。多くは約 10分刻みで 1ページずつ訪問しており、Googlebot ほど極端では在りませんが規則正しく訪問している印象を受けます。また、この記事を書いている 18 日現在も訪問が続いています。
現在のドメインに移行してから、3年半以上 経過しますが MSN には1割程度しか登録されていません。にも関わらず、msnbot の訪問頻度は高く、ただの嫌がらせは 1年前と変わりないようです。
個人的には無視してよい検索エンジンという結論です。
こちらも、クロールパターンは Yahoo! Slurp と同じで ページ左、つまり HTML では丈夫に来るリンクから辿っています。現在もクロールを続いており、アップロードから 4日経過しますが、102ページを訪問しています。新規ページへのクロール頻度は今のところ Yahoo! Slurp と同等です。
上記、公開から4日が経過する Crawler の訪問状況は以下の通りです。
Crawler | 3/14 | 3/15 | 3/16 | 3/17 |
---|---|---|---|---|
Googlebot | 164 | 8 | - | - |
Yahoo! Slurp | - | 14 | 42 | 45 |
msnbot | 1 | 40 | 8 | 53 |
クロールが著しく遅かった Googlebot は、公開から僅か半日で殆どのページのリンクをクロールし、新しいページだけをピンポイントでアクセスしている事を確認しました。全て一匹の googlebot (このサイトでは全て 66.249.66.233 ) がクロールしています。
既にインデックスされていたサイトの新しく追加されたページへのクロールですので、外部からリンクのない新しく立ち上げたサイトに対して同じ事が言えるかどうかは分かりません。
このサイトを例にすれば、既にインデックスされているサイトであれば、新しく作成したページを効率よく検索エンジンに登録してもらうには、ページ左メニューの最上部に サイト更新案内 メニューを配置すると良い事が分かります。
googlebot の場合、本文中、つまりソースコードの一番下にあるリンクまで見つけ出しており、強力にクロールしている事から現状では特に重要ではないとも言えます。
検索エンジンに配慮した対策ではありますが、一般の訪問者に対しても意味のある変更であるため、有効な対策です。
いくら crawler が訪問してもインデックスされなければ意味がありません。MSN のようにクロールだけでインデックスしない意味のないケースもありますが。当面の関心事項は、どの検索エンジンが最も早くインデックスし、検索結果に反映してくれるか、つまり、Google / Yahoo! / MSN の競争です。
XMLを利用しない従来の WEBサイトは、「検索エンジンが提供する サイトマップサービス による効果は殆どない」 という個人的な見解は、現在も変わりありません。
一等賞は Google でした!!公開から僅か 4日で 2ページがインデックスされました。去年の今頃とはえらい違いです。google.co.jp の結果です。
Crawler | 3/18 | 3/19 | 3/20 | 3/21 | 3/22 |
---|---|---|---|---|---|
2 | - | 9 | - | 144 | |
Yahoo! Slurp | - | - | - | 2 | 2 |
msnbot | - | - | - | 7 | 3 |
3/18 ドメインの重要性について ~ サーバーレンタル基礎
3/18 ルーター導入に関するアドバイス ~ネットワーク機器選びのポイント
いずれも 3/14 日 公開直後に googlebot にクロールされたページです。上記、2ページに関するログは、以下のとおり。
66.249.66.233 - - [14/Mar/2007:19:27:30 +0900] "GET /NetShop/products/network/router/index.html HTTP/1.1" 200 44666 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.233 - - [14/Mar/2007:19:58:52 +0900] "GET /Server_Rental/domain/about.html HTTP/1.1" 200 32977 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
この段階では、Google サイトマップへは URL を申請していません。つまり、純粋にトップページからのクロールでインデックスされた事になります。
また、興味深いことにページにアクセスしてきた googlebot は一匹だけであり、訪れた回数も一度限りです。以前は、ページ回収用の googlebot と 確認用の googlebot が交互に訪れていましたが、この一匹だけの訪問でインデックスされています。
去年の6月ごろまでは、 9ヶ月前に作ったページも登録されず諦めていましたが、この半年の間で googlebot の振る舞いに大きな仕様変更が入ったと考えられます。
この調子でいけば、同様の 162ページ分 も同じ googlebot がアクセスしているため、数日中にページがインデックスされる事も考えられます。変化があれば、ここで報告したいと思います。
今後、どのように変化するかはわかりませんし、また、インデックスされたページもすぐに消える可能性も否定できないので、ぬか喜びにならない事を祈るばかりです。
Google の早いデータベースセンターでは、3/20 の段階で 14ページのインデックスを確認しました。全て、3/14 に 66.249.66.233 に一度だけ訪問されたページです。一気にとはいきませんが、リンク階層順にインデックスされる様相です。
インデックスされたページは、いずれもドキュメントルートからリンクされている、つまり第二階層のページです。現段階では Yahoo! / MSN は一ページもインデックスされていません。トップページの更新のみとなっています。
Yahoo! に関しては、既にインデックスされていたページに関してはインデックスの更新が早く、 3/20 で13ページほど新規にキャッシュされています。Google は全く逆で、従来のページは古いままです。国内サイトにおける情報の鮮度で言えば Yahoo! ということでしょうか。(実際に国内にフォーカスしているし。)
MSN に 7ページ インデックスされました。いずれも 19日に msnbot が訪問しています。こちらも全て html ソースコードで最も上に来るリンク先のページ (第二階層)です。
また、Yahoo! でも 2ページが新たにインデックスされているのを確認しました。こちらは検索結果には反映されますが、検索結果上のキャッシュは参照できない状態です。既に登録されているキャッシュの更新は、81ページになります。
既にインデックスされているページを修正した場合、Yahoo! が最も早くインデックスを更新してくれるという特徴を確認しました。
予想通り、3/14 の Googlebot の訪問があったページの殆どが 3/22 にインデックスされました。3/19 に初めて Googlebot の訪問があったページも 3/22 のインデックスに含まれていました。階層が深くても googlebot の訪問があれば、一週間程度で殆どのページがインデックスされる事になります。
このサイトでは Google / Yahoo! / MSN 何れの検索エンジンでも 1週間以内に crawler が訪問し、ページがインデックスされる状況を確認しました。また、Google サイトマップサービスなど URL リスト申請に関しては関連は全く確認できませんでした。
インデックスされたばかりの頃は検索結果も適正ではないため、即アクセス数に変化が現れることもありません。
今回は、これにて追跡を終了します。検索エンジンは常に変化しますが、検索結果以外の振る舞い、「ロボットによるページ回収」 や 「インデックスされるまでの期間」 は、1年前と比べるとかなり変化している事を検めて確認しました。
それぞれの検索エンジンから訪れるユーザーの振る舞いは、これまでと変わりありません。上記、検索エンジンからの訪問者で最もページビューが高いのは MSN です。次に Yahoo! JAPAN 、最も少ないのが Google となっています。
MSN は、Internet Explorer のデフォルト検索エンジンとして登録されており、MSN をそのまま利用するユーザーは、初心者が多いからと考えられます。Yahoo! も同様に国内では初心者に人気の高い検索エンジンです。
Google に関しては、従来から質の高いロボット検索エンジンであり上級者から頻繁に検索を行うユーザーに利用者が多いため、ページビューにも結果として現れたと考えられます。
キャッシュ検索を利用する人が最も多いのもGoogle であることも一つの裏づけです。 掻い摘んで去っていく、ということでしょうか。
2007年 3月 16日 (3月 21日 更新)