本頁作成日: 2008年11月11日
本末転倒? robots.txt が呼んでくるもの
ロボット型検索エンジン(クローラ)に対して、サイト内のコンテンツ内容を合理的に持っていってもらう(SEO対策)
ために用いる“robots.txt”ですが、Web検索すると、「○○に持って行かれたくない」「○○退散」などクローリングを
回避する手段として紹介されている場合が多々あるようです。
ここで注意しなければならないのが、“robots.txt”は Webブラウザでもブラウズできるので、構文を解釈することで、
見られたくないと主張するコンテンツほど、第三者に見られる可能性が大きいということです。
「“robots.txt”はサイトのTOPに置く」という約束事があり、ブラウズは http://〜〜 サイト名文字列 〜/robots.txt
に対してアクセスすればよい。つまり、“Disallow:”以下に記述されているディレクトリに対して、悪意のある第三者に
総当りされる可能性が否定できないわけです。
これは、仮に“.htaccess”を使って各ディレクトリのファイル一覧表示を解除しても、“robots.txt”が、ともすると、
(秘匿したい)ディレクトリやファイルの一覧表示になってしまっていて、何の意味もないというお話でもあります。
サーバーの事情等で“.htaccess”が使えず、仕方なく“robots.txt”を使うというケースもあるでしょう。
「ロボット型検索エンジンに何も持って行かれたくない」という理由で“robots.txt”を使用するのであれば、
User-agent: *
Disallow: /
以外には何も書かない方が無難でしょう。

|