WEBNOTE -

[IT]IT辞典

エクセル(Excel)などのアプリケーションソフトの便利な使い方・裏技やアクセス(Access)・MYSQLなどのデータベースから、VBAなどのプログラミング、MTなどのWeb(インターネット)関係、サーバー、ネットワーク、SEOなどネットビジネスその他用語などPC全般

robots.txt―SEO対策の一環としてのrobot.txtの書き方

robot.txtを積極的に活用し、クローラーの動きをコントロール!

robot.txt(robots.txt)とは

robot.txt とは、これをサイト内の所定の場所に置くことにより、特定のページが、検索エンジンのインデックス(データベース)に登録されないようするためのファイルです。

※google、goo など各種検索エンジンに共通のフォーマットですが、中にはrobot.txt の指示に従わないものもあるようです。

 

クローラーが思いもかけないファイルにアクセスし、そのため多数のアクセスエラーが発生した場合、インデックスが削除されるおそれもあります。

また、思わぬサイトにクローラーが訪れ、下手をすれば、ミラーサイトと判断され、スパムと認定される可能性もあります。

 

したがって、SEO対策の見地からは、robot.txt という仕組みを活用し、クローラーの動きを積極的にコントロールすべきだと思います。

 

robot.txt か robots.txt か

ログを解析していると、Google、MSN 、infoseek は robots.txt に対して、アクセスを試みていました。

ネットでは、robot.txt という表記もあるのですが、robots.txt が正規なのでしょう。

 

robot.txt(robots.txt)の使い方

robot.txt(robots.txt)の置き場所

robot.txt はサイトのルートパスに置かなければなりません。

 

robot.txt(robots.txt)の書き方(様式・フォーマット)

例えば、次のように記述します。これは、すべての検索エンジンに対し、すべてのサイト内のファイルのインデックス化を禁じるものです。

User-agent: *
Disallow: /

このように、robot.txt には、User-agent と、Disallow という2つの項目から成り立っています。

User-agent

インデックス化を禁止する対象の検索エンジンのロボット名を指定する項目です。

ロボット名については、Database of Web Robots, Overview を参考にしてください。 

主要な検索エンジンのロボット名は次の通りです。

  • Google → Googlebot
  • goo → moget
  • msn → msnbot
  • infoseek → InfoSeek

例えば、Google と goo に対して、すべてのファイルの登録を禁止する場合には、次のように記述します。

User-agent: Googlebot
Disallow: /

User-agent: moget
Disallow: /
Disallow

インデックス化を禁止するフォルダないしはファイルを指定します。

例えば、Google に対して、特定のフォルダないしはファイルの登録を禁止する場合には、次のように記述します。

User-agent: Googlebot
Disallow: /_layouts/
Disallow: /desktop.ini/

Google では、Googleのサイト「サイトの概要」でクロールエラーを調べることができます。

※ただし、Google のアカウントを取得し、所定の手続をしている必要があります。

クローラーに訪れて欲しくないファイルでアクセスエラーが発生している場合には早急に robot.txt を使ってアクセスを禁止するようにした方がいいでしょう。



プリバシーポリシーサイトマップ