ベースのURLリストテーブルが作成できたら、次はURLリストテーブルをカスタマイズし、自信のWebサイトに最適化した XMLサイトマップを出力するための設定を行います。
注意
テーブルのカスタマイズを行う前に Setting は完璧である必要があります。でなければ、ここで設定したカスタマイズが全て最初からやり直しという事にも成りかねません。
もし、サイトの規模がこれから増えていく場合で対応できないは、URLリストテーブルを削除して最初から設定をやり直すか、URLリストテーブルとにらめっこして手動で修整する事になります。
取得したURLリストテーブルは以下の用になっています。それぞれの意味は以下のとおりです。
自分でURLを追加した場合、Manual にチェックが入ります。これは、Crawler が取得したURLなのか、自分で設定したURLなのか識別するための項目です。このチェックは、出力する XMLサイトマップには何ら影響を与えるものではありません。
基本的に正しくリンクされているか確認するためにも、手動のURL追加は行わず、その都度 (Re)Crawlを実行を実行した方が良いと思います。基点となったトップページにManual チェックが入るかもしれません。
ここでチェックされていないURLは、XMLサイトマップ出力の対象外になります。つまりGoogleには教えたくない、又は教える必要のないアドレスです。どのURLにデフォルトでInclude のチェックを入れるのかは Setting タブ → General タブ の File extentions to follow.で設定します。
ここにチェックが入っているURLを基準とし、GSiteCrawler はクロールを行いURLを収集します。通常は Includeにチェックが入っている個所にチェックが入っていればOKです。このチェックは、出力する XMLサイトマップには何ら影響を与えるものではありません。 。どのURLにデフォルトで Crawl のチェックを入れるかは Setting タブ → General タブ の File extentions to check.[not to follow] で指定する事が出来ます。
活用例として
例えば、トップページ、サブディレクトリだけに Crawl のチェックを入れて GSiteCrawler にクロールさせることでリンク階層を確認する、サイトのリンク構成を見直すためのツールとしても活用する事が出来ます。
サイト内の優先度を示します。デフォルトでは全て0.5に設定されています。(Google Sitemap Generatorは1だった)最大は1です。0.65 など下二桁で指定できるようですが、そこまで細かく判定するとは思えません。GSiteCrawlerで用意されている通り、精々0を含め4~5段階程度だと思います。(一般的にユーザーが理解できる階層の深さは4つまでが限界だから)
相対的な値である事に注意です。
例えば、1 > 0.95 > 0.8 > 0.75 と設定した方が良いように思えますが違います。
1 > 0.75 > 0.5 > 0.25
と設定した方が、1の意味合いがより強くなる筈です。憶測ですが相対値を表すため一番小さい値が基準に判断されると思います。0をどこかに含めるとより意味が強くなるかはわかりません。
この数字は他のサイトとの優劣を決める数値ではなく、自サイト内での相対的な優先順位となります。これにより、クロール周期に影響があるとGoogleは言っていますが、現状はそのように振舞われているかどうかは疑問です。しかし、サービスが本格的に機能し始めるとSEO的にも有利になる事も考えられますので、しっかり設定しておいた方が良いでしょう。
Google sitemapプロトコルでは更新頻度を示す changefreq があり、always , hourly , daily , weekly , monthly , yearly , never の7つのオプションが用意されています。これに該当するのが Frec.(Frequency)です。
ページ、ファイルの更新頻度を設定しますが、GSiteCrawler では、前回の修整日を比較して自動的にフラグを割当てる事が出来ます。素晴らしい!ですが、hourly に関しては GSiteCrawler1.02 にはありませんでした。always があるので特に問題はありませんけど。
GSiteCrawlerでは、前回クロールした時にフラグ(数字)を立てることでこれらの値を自動的に付け加えます。数値の範囲は以下のとおりです。この値に該当する changefreq 適用されたXMLサイトマップファイルが出力されます。
フラグ | パラメーター | 意味 |
---|---|---|
0 | always | 常に更新 |
1-6 | daily | 毎日更新 |
7-29 | weekly | 一週間に一度 |
30-299 | monthly | 一ヶ月に一度 |
300-998 | yearly | 一年に一度の更新 |
999 | never | 更新しない |
Googleによれば、この更新頻度、上記重要性を考慮し、GoogleのCrawler の訪問頻度が変わるとしています。しかし、このサイトでは、Googleサイトマップサービス開始当初から導入していますが、半年以上経過する現在もサイトマップとトップページ以外はgooglebotの訪問はありません。現状では全く機能していないと考えています。
Google Sitemap プロトコルで定義されているパラメーターで GSiteCrawler のURLリストテーブルで制御可能な項目は、Priority / Freq. という事になります。
次は、URLリストテーブルの操作方法について説明します。