.
Linux 活用ガイド:目次

サーバ構築ガイド

レンタル ガイド

ショップ 構築ガイド

情報漏洩対策

他のサイトマップ(XML)を内包するには ~ Google Sitemaps

別のsitemap.xml を梱包する

別のプロセスで作成したsitemap.xml をここで出力する sitemap.xml に含める事が出来ます。これは、URLの取得方法ではありません。 この方法は、Google に通知するURLが多い場合に必要となります。

記述例

<!-- 他のsitemap.xml を含める -->
<sitemap path="/var/www/docroot/subpath/sitemap.xml" />

パスで指定するだけです。

複数のsitemap.xml を一つにまとめるには

規定の 50,000URL を超える、または、sitemap.xml が10MB を超える場合、sitemap.xml を分割する必要があります。分割するディレクトリや URL ごとに、config.xml をそれぞれ用意し、別々に sitemap.xml.gz を出力する必要があります。

Google に通知するのは、まとめたXMLサイトマップだけ

ポイントは、それぞれのURLを取得するための sitemap_gen.py 実行は、以下の何れかの方法でGoogle には通知しないようにし、

suppress_search_engine_notify="1"

Google にping を通知しない上記記述を加えたままにするか、スクリプト実行の際、

$ python sitemap_gen.py --config=/path/my_config.xml --testing

--testing をつけて実行します。

configA.xml 記述例 Aディレクトリ

<!-- Siteシンタックス部 (必須設定) -->
<site
   base_url="http://safe-linux.homeip.net/A/"
   store_into="/var/www/sitemap-A.xml.gz"
   verbose="1"
   suppress_search_engine_notify="1"
>
<!-- URL取得に関する設定(必須設定) -->
<directory
   path="/var/www/docroot/A"
   url="http://safe-linux.homeip.net/A/"
   default_file="index.html"
/>

configB.xml 記述例 Bディレクトリ

<!-- Siteシンタックス部 (必須設定) -->
<site
   base_url="http://safe-linux.homeip.net/B/"
   store_into="/var/www/sitemap-B.xml.gz"
   verbose="1"
   suppress_search_engine_notify="1"
>
<!-- URL取得に関する設定(必須設定) -->
<directory
   path="/var/www/docroot/B"
   url="http://safe-linux.homeip.net/B/"
   default_file="index.html"
/>

config.xml 通知するためのXML設定ファイル

最終的にGoogle に登録する sitemap.xml です。Google に通知するのは、このサイトマップだけで済む事になります。

<!-- Siteシンタックス部 (必須設定) -->
<site
   base_url="http://safe-linux.homeip.net/"
   store_into="/var/www/sitemap.xml.gz"
   verbose="1"
>
<!-- 他のsitemap.xml を含める -->
<sitemap path="/var/www/sitemap-A.xml.gz" />
<sitemap path="/var/www/sitemap-B.xml.gz" />

cron で上記順番で実行し、最終的にGoogle Web サイトに登録するのは、最後の sitemap.xml.gz だけで、sitemap_gen.py の実行でGoogle に通知するのもこのファイルだけという事になります。これでも、sitemap-A.xml.gzsitemap-B.xml.gz を回収してくれるようになります。

重要

Google に登録できる sitemap は、200 までと決められていますが、それぞれの項目をスクリプトで実行した場合、規定の1時間に1回までを超えてしまいますが、この方法だと、通知する sitemap.xml を一つ、または、少なくする事ができるので、cron を使った定期実行に適しています。

本来、cron を使って定期実行するよりも、更新があった場合のみGoogle に通知する事が推奨されています。でないと アクセスが集中し、Google が処理出来無くなるからです。(現に起こっている)

cron で実行する場合

cron で実行する場合は、直にGoogle が回収に来る訳ではないので、順番はきに抹る必要はないと思いますが、

/etc/cron.daily/sitemap_gen
#!/bin/bash
python /path/sitemap_gen.py --config=/path/configA.xml --testing
python /path/sitemap_gen.py --config=/path/configB.xml --testing
python /path/sitemap_gen.py --config=/path/config.xml

サイトマップファイルが 200 個以内に収まるのであれば、それぞれ、登録すれば良いだけの話ですが、Google に対する通知(PING)は、1時間に1回までとなっていますので、服すの sitemap.xml を出力する場合は、注意が必要です。

1時間に1回は、サイトマップ毎なのか、サイト毎なのかで解釈は変わりますが、この点については説明がありませんが、一サイトマップ毎の更新という事だと思います。

参照 => 自動更新スクリプトを設定する

Google Sitemap サービス

.
おすすめ度の平均: ゲージ
ゲージ Amazon ウェブサービスを活用したい方にお勧め

プログラミングの知識のない方でも、簡単にWebサイトを充実させるためのテクニックを紹介した書籍です。

Webサイトに色彩りを沿えるアクセサリ的な要素から、Google Adsense やAmazon を始めとするアフィリエイト(広告収入)の具体的な組み込み例も紹介されています。

広告収入を得るためコード埋め込みなど、仕組みから具体例を分かり易く解説されています。

現在、ホームページやブログを持っている方で、アフィリエイトにこれから取り組んでみようと考えている方にもオススメです。

また、XSLTに全く知識のない方でも雛形のXSLTスタイルシートをカスタマイズすることでオリジナリティあるアフィリエイトサイトを構築する方法も紹介されています。初心者から中級者まで楽しめる内容となっています。オススメです。

.
bottom_mark
ページ最上部
ページ最上部 前のページ