.
Linux 活用ガイド:目次

サーバ構築ガイド

レンタル ガイド

ショップ 構築ガイド

情報漏洩対策

STEP 4 ウィザード終了後に実行する項目 ~ GSiteCrawler

STEP 4 ウィザードによるセットアップ

ウィザード実行後に行う処理を設定します。

step4

  • Read ROBOTS.TXT
    • ここにチェックを入れると、 robot.txt ファイルでクロール制御を行っている場合、robot.txt に定義されているURLを除外します。(公開ディレクトリに設置されている robot.txtを参照します) robot.txt を用いてクローラーの制限を行っている場合はチェックを入れて下さい。
  • Check for custom file-not-found error pages
    • サーバーレスポンスの file-not-found error ではなく、特定のURLページを表示するように設定されているサーバーの場合、GSiteCrawler は、そのページは存在すると解釈してしまいます。
    • file-not-found error を検出するためには、ここにチェックを入れそのURLは、file-not-found error を示していることを GSiteCrawler に教える必要があります。
    • このエラーの際、サーバーが返す特定のURLページを指定するには、ウィザード終了後、 Settings タブGeneral タブの
      HTML Code/Text on a custom 404-Error Page ["file not found"]
      で該当する URLを指定し、再度、(Re)Crawl を行う必要があります。
  • Import known pages from Google
    • google に既にインデックス(登録)されているページを問い合わせ、既にインデックスされたURL(ページ)を基準に Crawl し URL を取得します。サイトを立ち上げたばかりで、一つも Google にインデックス(検索対象)になっていない場合は、URLリストを取得する事は出来ません。また、GSiteCrawler の Global オプションでエージェントを googlebot に変更していた場合も取得することは出来ません。
    • この状況下で試した訳ではありませんが、この場合、ウィザード終了後、上部メニューの Importから、サーバ ログ、サイトマップ、URLテキスト、ローカルファイルの何れかからURLを取得する必要があります。
    • Importメニュー
    • 参照 => Google Sitemap に必要な URL を取得する(クロール実行)
  • Scan your website now
    • このウィザードで設定した内容で、Webサイトをスキャンします。初回はチェックを入れます。その結果をみてフィルタを設定した方がいいでしょう。リンクを辿りURLを取得しますので、サイトの規模によっては全てのURL取得に時間がかかります。リアルタイムにクロールの状況を確認するには、上部メニューのShow ボタンを押します。
    • showボタン
    • 処理中は、画面左下に Crawlers busy と表示されています。終了すると Crawlers idle に 変わります。進行状況をリアルタイムで確認するには、メニューバーの Show をクリックします。
  • Wait for scan to complete and upload file
    • ここにチェックを入れると、FTPで指定したサーバーにサイトマップファイルをアップロードします。アップロード後、Google にサイトマップを申請するために、Google Sitemap ページへ接続します。
    • ここでは、作成する内容を確認後、アップロードする手順を、チェックを外します。

ウィザード終了後の設定については、手動セットアップを参照して下さい。

bottom_mark
ページ最上部
ページ最上部 前のページ