あなたのウェブサイトのルートに格納されているrobots.txtファイルは、 検索エンジンのスパイダーのようなウェブロボットに、どのようなディレクトリやファイルがクロールされるかを知らせます。 robots.txtファイルを使用するのは簡単ですが、覚えておくべきことがいくつかあります:
- ブラックハットのWebロボットはrobots.txtファイルを無視します。 最も一般的なタイプは、マルウェアのボットと、収集する電子メールアドレスを検索するロボットです。
- 新しいプログラマの中には、robots.txtファイルを無視するロボットを書く人もいます。 これは通常誤って行われます。
- 誰でもあなたのrobots.txtファイルを見ることができます。 それらは常にrobots.txtと呼ばれ、常にウェブサイトのルートに保存されます。
- 最後に、robots.txtファイルで除外されていないページからrobots.txtファイルによって除外されたファイルまたはディレクトリにリンクした場合、検索エンジンはそのファイルを見つけられる可能性があります。
重要なものを隠すためにrobots.txtファイルを使用しないでください。 代わりに、重要な情報を安全なパスワードの背後に置くか、Webから完全に離しておくべきです。
これらのサンプルファイルを使用する方法
実行したいサンプルに最も近いテキストをコピーして、robots.txtファイルに貼り付けます。 ロボット、ディレクトリ、ファイル名を好みの設定に合わせて変更します。
2つの基本的なRobots.txtファイル
ユーザーエージェント: *
Disallow:/
このファイルにアクセスするロボット(User-agent:*)は、サイトのすべてのページ(Disallow:/)を無視する必要があります。
ユーザーエージェント: *
Disallow:
このファイルには、サイトにアクセスするすべてのロボット(User-agent:*)がサイトのすべてのページを表示できることが示されています(Disallow:)。
robots.txtファイルを空白にしておくか、サイト上にrobots.txtファイルをまったく残しておくことで、これを行うこともできます。
ロボットから特定のディレクトリを保護する
ユーザーエージェント: *
Disallow:/ cgi-bin /
Disallow:/ temp /
このファイルにアクセスするロボット(User-agent:*)は、/ cgi-bin /および/ temp /(Disallow:/ cgi-bin / Disallow:/ temp /)というディレクトリを無視する必要があります。
ロボットから特定のページを保護する
ユーザーエージェント: *
Disallow:/jenns-stuff.htm
Disallow:/private.php
このファイルにアクセスするロボット(User-agent:*)は/jenns-stuff.htmと/private.php(Disallow:/jenns-stuff.htm Disallow:/private.php)というファイルを無視する必要があります。
特定のロボットがあなたのサイトにアクセスするのを防ぐ
ユーザーエージェント:Lycos / xx
Disallow:/
このファイルは、Lycosボット(User-agent:Lycos / xx)がサイトのどこにでもアクセスできないことを示しています(Disallow:/)。
特定のロボットにのみアクセスを許可する
ユーザーエージェント: *
Disallow:/
ユーザーエージェント:Googlebot
Disallow:
このファイルはまず、上記のようなすべてのロボットを許可しないで、Googlebot(User-agent:Googlebot)がすべてのものにアクセスできるようにします(Disallow:)。
複数の回線を組み合わせて、必要な除外事項を正確に取得する
User-agent:*のような、非常に包括的なUser-agent行を使用する方が良いのですが、好きなだけ具体的にすることができます。 ロボットはファイルを順番に読み込むことを忘れないでください。 最初の行ですべてのロボットがすべてからブロックされていると表示された場合は、後でファイル内ですべてのロボットがすべてのものにアクセスできるようになり、ロボットはすべてのものにアクセスできるようになります。
robots.txtファイルを正しく書き込んだかどうか不明な場合は、Googleのウェブマスターツールを使用してrobots.txtファイルを確認したり、新しいファイルを書き込んだりできます。