sitemap_gen 実行の際、取得したいURL、除外したいURLをフィルタリングする事が出来ます。特に、画像ファイルを省くスッキリするばかりか Crawler にも優しくなるのではないかと思います。
画像やPDF などは通知せず、テキストコンテンツのみを登録したいケースが多いと思います。
フィルターは記述した順に実行されます。このフィルターは、url / urllist / directory / accesslog すべての方法で取得するURLに対して適用されます。
<!-- フィルター設定 -->
<filter action="pass" type="wildcard" pattern="*.htm*" />
<filter action="pass" type="wildcard" pattern="*.php*" />
<filter action="drop" type="wildcard" pattern="*" />
この例では、ワイルドカードで .php / .htm が含まれるURL を全て収集するように指定し、すべてのファイルは除外する事で、テキストコンテンツのみのURLだけを取得し、通知するようにしています。
一般的な運用ではこれで十分だと思います。ケースによってはアクセスログからURLを取得したい場合もあります。この場合、ページアドレスにセッションIDやパラメーターが含まれる場合があるためセキュリティに配慮したフィルタリングを施す必要があります。
ケースによっては、pattern に定義して除外する必要もあります。
pattern="除外する文字列を指定する"
filter で指定可能なシンタックス詳細は以下を参照して下さい。
URL => filter で指定可能なシンタックス
シンタックス | 必要性 | 内容 |
---|---|---|
action | 任意 | pass drop |
type |
任意 | フィルタの種類を指定します。 wildcard regexp |
pattern |
必須 | フィルタリングするURLに含まれる文字列を指定します。ここで指定されたURLが上記アクションで処理されます。 |