サーバ構築ガイド

レンタルガイド

ショップ構築ガイド

目次～ショップ構築

情報漏洩対策

URL リストを取得する（クロールの実行）

これまでのセッティング、フィルター設定が出来ましたら、URLリストを取得するためにGSiteCrawler にサイトを巡回していもらいます。この作業により、Google sitemap.xml の元となる URLリストテーブルが作成される事になります。

複数の用意された URL を取得方法.

URL を取得、つまり、GSiteCrawler がサイトを巡回するには、基点となるURLどうするかで、いくつかの方法が用意されています。

Import

URLs form Log-File
- WebサーバーのログファイルにあるURLから巡回します。
URLs form Google
- Google に現在インデックスされているURLを調査し、そのページを基準に巡回します。
- 全くインデックスされていないサイトは、無理だと思います。
Existing Google Sitemap-file
- 以前にGoogle Sitemap-file を作成されたことのある場合は、XMLサイトマップファイルに記載されたURLを基準に巡回します。
ROBOTS.TXT from Website
- robot.txt を利用して Crawler を制御している場合、これを利用する事も出来るようです。（未確認）
Files from local directory
- ローカルファイルを指定し、リンクを巡回します。
- ローカルファイルを辿るのが速度も速くお勧めですが、URLが文字化けを起こすなど自分が試した限りでは上手く行きませんでした。

ここで推奨するURL取得方法

上記の Import は行わず、上部メニューの (Re)Crawl を実行します。

Crawl ボタン

この場合、Project タブ で設定した Main URL （1URL-ここではサイトトップ）を基準に Crawl を開始します。

（Re）Crawl実行すると画面下が idle から busy 状態に変わります。

Status

サイトの規模やリンク構造、Webサーバーによっては Crawl が終了するまでかなり時間がかかります。このサイトで3～5分ほどです。何匹の Crawler でサイトを巡回するかは File → Global options で行えます。

巡回する Crawler の数が多いと、Webサーバーに高い負荷を掛けてしまい逆にサーバーレスポンスが低下します。デフォルトの 6 が推奨です。また、DNS/Webサーバーによってはタイムアウト時間を適切に設定しないエラーになる場合もあります。この場合も File → Global options でチューニングする必要があるかもしれません。