2011年3月29日火曜日

robots.txt とは?

robots.txt とは?

robots.txt とは、gooGoogle、Lycos などのロボット型検索エンジンに対する命令を記述するためのファイルです。自分のページが、検索エンジンのデータベースに登録されないように指示します。

ただ、この指定は強制的なものではなく、この指定を行っても検索してしまう検索エンジンはあるかもしれません。gooGoogleLycos は大丈夫のようです。

robots.txt の書き方

robots.txt ファイルは、そのサイトのトップに置かなくてはなりません。

 http://www.xxx.zzz/robots.txt
× http://www.xxx.zzz/~tohoho/robots.txt

robots.txt の中には次のように記述します。これは、すべて(*)のロボットに対して、/ ではじまるファイル(つまりはすべてのファイル)を検索データベースに登録することを禁止するものです。

User-agent: *
Disallow: /

例えば、gooGoogle に対してのみ、/himitsu と /cgi-bin の下のファイルを検索させないようにするには、次のようにします。

User-agent: moget
Disallow: /himitsu/
Disallow: /cgi-bin/
 
User-agent: Googlebot
Disallow: /himitsu/
Disallow: /cgi-bin/

METAタグによる指定

<meta>タグによる指定を行えば、各ページに対する設定を行うことができます。

<meta name="robots" content="noindex,nofollow">

noindex, nofollow の部分には以下のようなものを指定します。

  • index - 検索データベースへの登録を許可します。
  • noindex - 検索データベースへの登録を禁止します。
  • follow - このページに含まれるリンクをたぐることを許可します。
  • nofollow - このページに含まれるリンクをたぐることを禁止します。

■ 参考文献

 

0 件のコメント:

コメントを投稿