別のプロセスで作成したsitemap.xml をここで出力する sitemap.xml に含める事が出来ます。これは、URLの取得方法ではありません。 この方法は、Google に通知するURLが多い場合に必要となります。
<!-- 他のsitemap.xml を含める -->
<sitemap path="/var/www/docroot/subpath/sitemap.xml" />
パスで指定するだけです。
規定の 50,000URL を超える、または、sitemap.xml が10MB を超える場合、sitemap.xml を分割する必要があります。分割するディレクトリや URL ごとに、config.xml をそれぞれ用意し、別々に sitemap.xml.gz を出力する必要があります。
ポイントは、それぞれのURLを取得するための sitemap_gen.py 実行は、以下の何れかの方法でGoogle には通知しないようにし、
suppress_search_engine_notify="1"
Google にping を通知しない上記記述を加えたままにするか、スクリプト実行の際、
--testing をつけて実行します。
<!-- Siteシンタックス部 (必須設定) -->
<site
base_url="http://safe-linux.homeip.net/A/"
store_into="/var/www/sitemap-A.xml.gz"
verbose="1"
suppress_search_engine_notify="1"
>
<!-- URL取得に関する設定(必須設定) -->
<directory
path="/var/www/docroot/A"
url="http://safe-linux.homeip.net/A/"
default_file="index.html"
/>
<!-- Siteシンタックス部 (必須設定) -->
<site
base_url="http://safe-linux.homeip.net/B/"
store_into="/var/www/sitemap-B.xml.gz"
verbose="1"
suppress_search_engine_notify="1"
>
<!-- URL取得に関する設定(必須設定) -->
<directory
path="/var/www/docroot/B"
url="http://safe-linux.homeip.net/B/"
default_file="index.html"
/>
最終的にGoogle に登録する sitemap.xml です。Google に通知するのは、このサイトマップだけで済む事になります。
<!-- Siteシンタックス部 (必須設定) -->
<site
base_url="http://safe-linux.homeip.net/"
store_into="/var/www/sitemap.xml.gz"
verbose="1"
>
<!-- 他のsitemap.xml を含める -->
<sitemap path="/var/www/sitemap-A.xml.gz" />
<sitemap path="/var/www/sitemap-B.xml.gz" />
cron で上記順番で実行し、最終的にGoogle Web サイトに登録するのは、最後の sitemap.xml.gz だけで、sitemap_gen.py の実行でGoogle に通知するのもこのファイルだけという事になります。これでも、sitemap-A.xml.gz と sitemap-B.xml.gz を回収してくれるようになります。
Google に登録できる sitemap は、200 までと決められていますが、それぞれの項目をスクリプトで実行した場合、規定の1時間に1回までを超えてしまいますが、この方法だと、通知する sitemap.xml を一つ、または、少なくする事ができるので、cron を使った定期実行に適しています。
本来、cron を使って定期実行するよりも、更新があった場合のみGoogle に通知する事が推奨されています。でないと アクセスが集中し、Google が処理出来無くなるからです。(現に起こっている)
cron で実行する場合は、直にGoogle が回収に来る訳ではないので、順番はきに抹る必要はないと思いますが、
サイトマップファイルが 200 個以内に収まるのであれば、それぞれ、登録すれば良いだけの話ですが、Google に対する通知(PING)は、1時間に1回までとなっていますので、服すの sitemap.xml を出力する場合は、注意が必要です。
1時間に1回は、サイトマップ毎なのか、サイト毎なのかで解釈は変わりますが、この点については説明がありませんが、一サイトマップ毎の更新という事だと思います。
参照 => 自動更新スクリプトを設定する