.
Linux 活用ガイド:目次

サーバ構築ガイド

レンタル ガイド

ショップ 構築ガイド

情報漏洩対策

URL リストを取得する(クロールの実行)

これまでのセッティング、フィルター設定が出来ましたら、URLリストを取得するためにGSiteCrawler にサイトを巡回していもらいます。この作業により、Google sitemap.xml の元となる URLリストテーブルが作成される事になります。

複数の用意された URL を取得方法.

URL を取得、つまり、GSiteCrawler がサイトを巡回するには、基点となるURLどうするかで、いくつかの方法が用意されています。

Import

  • URLs form Log-File
    • WebサーバーのログファイルにあるURLから巡回します。
  • URLs form Google
    • Google に現在インデックスされているURLを調査し、そのページを基準に巡回します。
    • 全くインデックスされていないサイトは、無理だと思います。
  • Existing Google Sitemap-file
    • 以前にGoogle Sitemap-file を作成されたことのある場合は、XMLサイトマップファイルに記載されたURLを基準に巡回します。
  • ROBOTS.TXT from Website
    • robot.txt を利用して Crawler を制御している場合、これを利用する事も出来るようです。(未確認)
  • Files from local directory
    • ローカルファイルを指定し、リンクを巡回します。
    • ローカルファイルを辿るのが速度も速くお勧めですが、URLが文字化けを起こすなど自分が試した限りでは上手く行きませんでした。

ここで推奨するURL取得方法

上記の Import は行わず、 上部メニューの (Re)Crawl を実行します。

Crawl ボタン

この場合、Project タブ で設定した Main URL (1URL-ここではサイトトップ)を基準に Crawl を開始します。

(Re)Crawl実行すると画面下が idle から busy 状態に変わります。

Status

サイトの規模やリンク構造、Webサーバーによっては Crawl が終了するまでかなり時間がかかります。このサイトで3~5分ほどです。何匹の Crawler でサイトを巡回するかは FileGlobal options で行えます。

巡回する Crawler の数が多いと、Webサーバーに高い負荷を掛けてしまい逆にサーバーレスポンスが低下します。デフォルトの 6 が推奨です。 また、DNS/Webサーバーによってはタイムアウト時間を適切に設定しないエラーになる場合もあります。この場合も FileGlobal options でチューニングする必要があるかもしれません。

Show ボタン

上部メニューの Show ボタンをクリックすると GSiteCrawler が現在行っているクロール状況をリアルタイムで確認する事が出来ます。(デフォルトでは5秒置きの更新)

Crawl が終了するとそれを知らせるカウントダウン付きのアラート画面が表示され

Crawl 終了アラート

待機状態に変わります。

Crawl 待機状態

URLリストテーブルを確認し、意図したとおりにリストされているか確認してください。URLリストテーブルの見方については、以下で説明しています。

参照 => 取得した URL リストをカスタマイズする(SEO最適化)

重要

取得したURL リストテーブルの確認を行います。問題があった場合は、再度設定を見直し、URLリストテーブルを削除する必要があります。次は、再度、URLリストテーブルを作成する場合の注意点について説明します。

bottom_mark
ページ最上部
ページ最上部 前のページ