コンテンツをパクる困りもの、スクレイピングサイトと、その対処法は?

Googleはオリジナルのコンテンツを高く評価するアルゴリズムを整えています。

これはつまり、他サイトが公開したコンテンツを、何らかの手段でパクって、何も手を加えずに公開するサイトを低く評価するということになります。このパクったコンテンツを公開するサイトのことをスクレイピングサイトと呼びます。コンテンツをパクる手段はいくつかあげられますが、代表的なものはRSSフィードを取得し、その中からコンテンツを抽出する、という方法があげられます。

Googleのアルゴリズムはスクレイピングサイトのようなスパムを排除する方向へ進んでいますが、残念ながら現段階では完璧とは言えず、スクレイピングサイトの方が検索結果の上に表示される可能性があるのです。特に検索ボリュームが大きいキーワードで起きてしまったら、サイトのトラフィックに影響が出てくるので困りモノですよね。

Googleがオリジナルと判断するための要素はいくつかありますが、最も比重が高いものはインデックスされた時間だと言われています。一番最初にインデックスされたコンテンツがオリジナルだと判断されやすい、ということです。

Googleのマット・カッツ氏は、この事態を防ぐために“PubSubHubbub”と呼ばれる技術を用いて、この事態を回避するよう推奨しています。PubSubHubbubは至極大雑把に言うと「コンテンツを公開した!」というシグナルをGoogleへ一瞬で伝えることができる技術で、WordPressにはプラグインがありますので、利用するとよいでしょう。

それでもスクレイピングサイトが上にきたら?

方法は大きく2つあります。

  • デジタルミレニアム著作権法に基づき、Googleへ削除申請を出す

著作権を侵害したコンテンツということで、Googleへ削除申請を行うことができます。これはWebMaster Toolから行えます。申請はこちらから出すことができます。

  • Scraper Reportから申請を行う

こちらは本日、マット・カッツ氏がアナウンスしました。

オリジナルのコンテンツ(自サイト)と、スクレイピングサイトのURL、スクレイピングサイトの方が高くなっているキーワードのURLの3つを入力し、Googleへ報告します。ただし、こちらの場合はGoogleが対応するという保証はないようなので、確実に対応して欲しい場合はデジタルミレニアム著作権法の申請を行った方がよいでしょう。

(Photo: The red-scarf bandit. by Renato Ganoza)

  • f
  • t
  • p
  • h
  • l
  • n