Setting タブ ~ GSiteCrawler 手動プロジェクトセットアップ
Setting タブでは、GSiteCrawler が Crawl を行いURL取り込みます。このURLリストテーブルに関する初期値、及び、基本動作に関する設定を行います。 3つの項目に分かれています。
Generalタブ ~ Setting タブ (GSiteCrawler の動作設定)
General タブでは、GSiteCrawler が収集した URL に対しどのように URL list テーブルの初期値に関する設定を行います。
- URLs are case-sensitive [Linux/Unix-Servers]
- Unix、Linux は拡張子の大文字、小文字を識別するためサーバーがUnix系である場合はチェックを入れます。多分、該当するページがあれば除外されるか、警告が出るのだと思います。未確認
- Remove trailing slash on folder names.
- このチェックを入れるとフォルダ末尾のスラッシュを含めないアドレス表記となります。つまり、index.htmlなどのデフォルトファイルによるディレクトリURLが含まれる場合、利用中のWebサーバーの設定によっては末尾のスラッシュ、つまり http://sample.com/aa/ ではアクセスできない場合があります。チェックを入れると http://sample.com/aa としてくれます。デフォルトではチェックを入れるようにします。
- Remove HTML Comments before parsing pages.
- ページ解析前にHTMLコメントを削除??確認できませんでした。不明です。多分、URL list テーブルに記録された ページタイトルなど削除するのではないかと思います。
- File extentions to follow.
.
- ここで登録された拡張子を含むURLは、リストテーブルのInclude のチェックが有効になります。つまり、sitemap.xmlにURLを出力する事が出来ます。デフォルトは以下のようになっていますが、
asp,aspx,cfm,cgi,do,htm,html,jsp,mv,mvc,php,php5,pl,py,shtml
必要に応じて html,htm,php などとし、自分のサイトに応じてgoogleに通知したいファイルを絞り込むようにして下さい。それ以外の拡張子を含むURLは、URLリストが作成されますがIncludeのチェックが外されます。
- (ピリオドを除きカンマで指定)
- ここに記述されていない拡張子も URLリストに含まれることに留意して下さい。サイトのリンク数、エラーをチェックする場合に有効ですが、リストテーブルが非常に長くなり、編集が困難になります。リストにも加えたくない場合は、フィルターで GSiteCrawler に該当する文字列を含むURLはCrawl しないように設定する事でリストから除外出来ます。(後述)
- File extentions to check.[not to follow]
.
- GSiteCrawlerのCrawl対象としたくない拡張子を記述します。ここで指定された拡張子を持つURLは、URLリストの Crawl のチェックが外されます。デフォルトのままで問題は無いと思います。
- これは、サイト更新を行い再度 (Re)Clorwl を実行した場合、URL リストテーブルの crawl のチェックの入ったURLを基準に Crawl を行い新しいURLを探すことになります。
- GSiteCrawlerがクロールする階層の深さ、同時に何匹のCrawlerが行うかは、File → Global options で設定できます。
- HTML Code/Text on a custom 404-Error
- リンク先にファイルが存在しない(404)場合、サーバーレスポンスの file-not-found error ではなく、特定のURLページをリダイレクトで表示するように設定されているWebサーバーの場合、GSiteCrawler は、そのページは存在すると解釈してしまいます。
- file-not-found error を検出するためにはここにチェックを入れ、その URLが file-not-found error を示していることを GSiteCrawler に教える必要があります。CustomページのURLをここで指定すると、file-not-found error を正しくレポートする事が出来るようになります。
- Action on Error 404 [file noto found]
.
- クロールの際、リンク切れを発見した場合のアクションを設定します。デフォルトの Remove URL format list で結構です。404エラーを返したアドレスはリストに追加されません。
- 現在あるURLリストから取り除く訳ではないようです。以前、存在していたURLが変更になった場合など、手動でURLテーブルリストから取り除く必要があります。
- Google Sitemap file oputions.
- URLに含めるオプションを指定します。ここでチェックされた項目は、XMLサイトマップに出力されます。現状は機能しているとは思えませんが、将来的に SEO的にに有利になる可能性が高いので全てにチェックを入れます。
- □ Include date last modified of the URL according to the server.
最終更新日を含めます。
- □ Include priority setting.
優先順位を含めます。
- □ Include frequency setting.
更新頻度を含めます。