webサイト制作、webサイト構築を行う上で、必ず出てくるキーワード「SEO」。今回は、Google 検索エンジン最適化(SEO)スターターガイドの「クローラーへの対処」で紹介されている「robots.txtを効果的に設定しよう」について説明。
以下、Google検索エンジン最適化(SEO)スターターガイドに書かれている詳細及び個人的に注目するポイントをまとめて整理している。Google 検索エンジン最適化(SEO)スターターガイドの補足として利用してほしい。
robots.txtを効果的に設定しよう
クロールが不要な部分はrobots.txtで回避する
“robots.txt”とは、検索エンジンにアクセスしクロールしてほしい部分と、そうでない部分を伝えるためのファイルです。
このファイルは必ず“robots.txt”というファイル名でサイトのルートディレクトリに置く必要があります。
Googleウェブマスターツールをご利用いただくと、robots.txtファイルを簡単に作ることができます。詳細は、ヘルプセンターのrobots.txtファイルを使用してページをブロックまたは削除するをご確認ください。サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に別のrobots.txtファイルを用意する必要があります。
検索結果にコンテンツを表示させない方法は他にも、“NOINDEX”をrobotsメタタグに追加、.htaccessを使ってディレクトリにパスワードを設定、Googleウェブマスターツールを使ってすでにクロールされたコンテンツを削除するなどがあります。用語説明
.htaccess
ウェブサーバーの動作環境を制御するアクセス環境設定ファイル
リファラーログ
アクセスログに記載されているリファラー情報。これをたどっていくと閲覧者がどこのサイトから来たかなどを調べられる
プロキシサービス
内部ネットワークと外部ネットワークを接続する場合に接続を代行するコンピュータ、またはそのための機能を持ったソフトウェアのこと
ポイント
慎重に扱うべきコンテンツにはより安全な方法を使用しよう
機密事項や慎重に扱うべきコンテンツがクロールされないようにするには、robots.txtの設置だけでは十分ではありません。その理由の1つは、クロールできないように設定したURLであっても、そのURLへのリンクがインターネット上のどこか(例えばリファラーログなど)に存在する場合、検索エンジンはそのURLを参照できるからです。また、Robots Exclusion Standardに準拠しない検索エンジンや不正な検索エンジンなどは、robots.txtの指示に従わないかもしれません。そしてもう1つ、好奇心の強いユーザーの中には、robots.txtにあるディレクトリやサブディレクトリを見て、見られたくないコンテンツのURLを推測する人がいるかもしれません。コンテンツの暗号化や.htaccessを使ってパスワードをかけて保護する方が、より確実で安全な手段だといえます。
- 検索結果のようなページはクロールさせない
- 同一か、ほとんど違いがない自動生成されたページを大量にクロールさせないようにする
- プロキシサービスによって生成されたURLはクロールさせないようにする
※検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです
※「重複コンテンツに近いこれら100,000ものページはインデックスされるべきだろうか?」と問い直してみましょう参考ページ
Googleウェブマスター向けガイドライン
http://support.google.com/webmasters/bin/answer.py?hl=ja&answer=156449
いかがだろうか。
管理者用画面などはこの方法がよいかもしれないが、基本的には公開領域「Public」(URLをたたけば、みれてしまう)非公開領域「Private」(URLをたたいただけでは見ることができない)と分けたとき、Publicで見せたくないものはベーシック認証などをかけておく必要がある。いくら検索エンジンに引っかからなくても、URLをたたけば見られてしまいます。
次回は「クローラーへの対処:リンクにnofollow属性を活用しよう」について見ていこうと思う。
Google 検索エンジン最適化(SEO)スターターガイドの詳細はこちら
- Google 検索エンジン最適化(SEO)スターターガイドについて
- SEOの基礎 適切なページタイトルを付けよう
- SEOの基礎 descriptionメタタグを設定しよう
- サイト構造の改善 URLの構造を改善しよう
- サイト構造の改善 ナビゲーションをわかりやすくしよう
- XML サイトマップファイル sitemap.xmlについて
- コンテンツの最適化 質の高いコンテンツを提供しよう
- コンテンツの最適化 適切なアンカーテキストを書こう
- コンテンツの最適化 画像の利用を最適化しよう
- コンテンツの最適化 見出しタグを適切に使おう
- クローラーへの対処 robots.txtを効果的に設定しよう
- クローラーへの対処 リンクにnofollow属性を活用しよう