robot.txtを使ってクローラーを制御する

robots.txtは、クローラーによるWebサイトへのアクセスを一括で制御できる。あるディレクトリのみインデックスされないように制御するといったことも可能でなのだ。robots.txtというファイルを作成し、以下のような必要な制御情報を記述して、サーバーのルートディレクトリにファイルを置こう。

(省略)

サイト全体をインデックスしない場合

Disallow: /

新規制作のWEBサイトを構築しているときに使用することになるだろう。

指定したディレクトリのみをインデックスしない場合

Disallow: /ディレクトリ名/
たとえば、Disallow: /test/

指定したページのみをインデックスしない場合

Disallow: /ディレクトリ名/ページ名(ファイル名)

たとえば、Disallow: /test/testpage.html

参照:テストページは要注意!noindexとrobots.txtでインデックス防止(http://cobitospice.com/hp/how-to-use-noindex-robots)