sitemap_gen.py の実行方法と、cron デーモンを使用したスケジュール実行について説明します。 ここまでのプロセスで作成したconfig.xml の例をこのサイトで示すと以下のようになります。
sitemap_gen.pyの設定ファイル config.xml の例です。
<!-- Siteシンタックス部 (必須設定) -->
<site
base_url="http://safe-linux.homeip.net/"
store_into="/var/www/sitemap.xml.gz"
verbose="1"
suppress_search_engine_notify="1" ←テスト終了後は削除
>
<!-- 上位階層はテキストで個々のURLを指定する -->
<urllist path="/var/www/sitemap_top.txt" encoding="UTF-8" />
<!-- ディレクトリによるURL取得指定 -->
<directory
path="/var/www/network"
url="http://safe-linux.homeip.net/network/"
/>
<directory
path="/var/www/security"
url="http://safe-linux.homeip.net/security/"
/>
<directory
path="/var/www/web"
url="http://safe-linux.homeip.net/web/"
/>
<directory
path="/var/www/mail"
url="http://safe-linux.homeip.net/mail/"
/>
<directory
path="/data01/www-linux/pub/html/other"
url="http://safe-linux.homeip.net/other/"
/>
<!-- フィルター設定 -->
<filter action="pass" type="wildcard" pattern="*.htm*" />
<filter action="pass" type="wildcard" pattern="*.php*" />
<filter action="drop" type="wildcard" pattern="*" />
sitemap_gen.py を実行は、コンソールから行います。ホスティングサービスをご利用の方は、ssh などリモートログイン権限が必要です。
設定ファイルにミスがある場合は、Google にPing は送信されませんが、問題がなければGoogle にPing が送信されます。--testing を付けた場合は、送信されません。
Google によれば、『 初回はWebサイト上で生成した sitemap.xml のURLを登録する必要がある 』 としていますので問題はないと思うのですが、 念のため、正しくフィルタリングが行われているか確認してから --testing を外して実行するようにして下さい。
この sitemap.xml.gz が更新されたことを知らせるHTTPリクエスト(ping)は、最短で1時間に1回までと定められていますので注意が必要です。
出力されたsitemap.xml.gz に問題がなければ、Google サイトマップサービスにURLを登録後、再度
を実行します。sitemap.xml に変更があれば、その都度、このコマンドを実行し、Google に通知する必要があります。Linux であれば、cron デーモンで1日おきに実行すればいいでしょう。
RH系Linux であれば、/etc/cron.daily ディレクトリに以下のスクリプトを設置することで、午前4時頃に、自動実行されるようになります。
レポートは cron デーモンが返します。
Google Sitemap Generator 2005年 6月17日 (2006年 1月 13日改定)