■ robots.txt とは?
robots.txt とは、goo、Google、Lycos などのロボット型検索エンジンに対する命令を記述するためのファイルです。自分のページが、検索エンジンのデータベースに登録されないように指示します。
ただ、この指定は強制的なものではなく、この指定を行っても検索してしまう検索エンジンはあるかもしれません。goo、Google、Lycos は大丈夫のようです。
■ robots.txt の書き方
robots.txt ファイルは、そのサイトのトップに置かなくてはなりません。
○ http://www.xxx.zzz/robots.txt
× http://www.xxx.zzz/~tohoho/robots.txt
robots.txt の中には次のように記述します。これは、すべて(*)のロボットに対して、/ ではじまるファイル(つまりはすべてのファイル)を検索データベースに登録することを禁止するものです。
User-agent: *
Disallow: /
例えば、goo と Google に対してのみ、/himitsu と /cgi-bin の下のファイルを検索させないようにするには、次のようにします。
User-agent: moget
Disallow: /himitsu/
Disallow: /cgi-bin/
User-agent: Googlebot
Disallow: /himitsu/
Disallow: /cgi-bin/
■ METAタグによる指定
<meta>タグによる指定を行えば、各ページに対する設定を行うことができます。
<meta name="robots" content="noindex,nofollow">
noindex, nofollow の部分には以下のようなものを指定します。
- index - 検索データベースへの登録を許可します。
- noindex - 検索データベースへの登録を禁止します。
- follow - このページに含まれるリンクをたぐることを許可します。
- nofollow - このページに含まれるリンクをたぐることを禁止します。
■ 参考文献
- The Web Robots Pages
http://info.webcrawler.com/mak/projects/robots/robots.html
- ロボットクローリング回避の方法(by goo) http://www.goo.ne.jp/help/search/crawl.html
- ロボットによる索引化をさける方法(by Lycos) http://www.lycos.co.jp/help/search/robot.html
0 件のコメント:
コメントを投稿