直接、設定ファイル config.xml にURL を記述するのではなく、URLが記述されたテキストファイルから、URL を取得する方法です。この場合、このURLが記述されたテキストファイルのパスを指定します。
先ほどの site シンタックス部 の続きに以下を記入します。
<!-- URL取得に関する設定(必須設定) -->
<urllist path="example_urllist*.txt" encoding="UTF-8" />
テキストファイルの文字コードは UTF-8 で保存します。上記例では、" * " ワイルドーカードを用いて、複数のテキストファイルを一度に指定しています。
サブディレクトリごとに、URLテキストファイルを分ける事が出来るので、URLを設定ファイルに直接書き込むよりは、幾分管理は行い易いかと思います。
urllist で使用可能なシンタックスは以下のとおり
シンタックス | 必要性 | 内容 |
---|---|---|
path | 必須 | URLリストを記述したテキストファイルのパスを指定します。 |
encoding |
任意 | テキストの書式がUTF-8 でない場合に指定します。UTF-8 にエンコードして取り込むのだと思います。 |
URLを記述するテキストファイルは、以下のように記述する事が出来ます。
http://www.example.com/abc/something
http://www.example.com/abc/xyy.pdf lastmod=2001-12-31T14:05:06+00:00
http://www.example.com/abc/def?x=12&y=23 changefreq=weekly priority=0.3
URL と同様に lastmod(最終更新日)/ changefreq(更新頻度)/ priority(優先順位)を指定する事が出来ます。
参照 => urllist シンタックス部 リファレンス
シンタックス | 必要性 | 内容 |
---|---|---|
lastmod |
任意 | 更新日を指定します。
書式は ISO 8601 形式 時刻は省略する事が出来ます。 |
changefreq |
任意 | URL の更新頻度で、クローラのクロール頻度の目安として使用されます。 値には always / hourly / daily / weekly / monthly / yearly/ never が使用できます。 |
priority |
任意 | サイト内のURL同士の相対的な優先順位を 0 ~ 1 の下二桁 の数字で指定します。1が最も優先度が高くなりますが、サイト内URLの相対値を示すため、すべてを1に設定しても意味がありません。 トップを 1 とし、サブディレクトリを 0.95 、以外を0.85 と設定するよりも、1 > 0.5 > 0.25 と幅を持たせた方が1の意味合いがより強くなります。 |