WordPressでのブログコンテンツスクレイピングを防ぐための初心者ガイド

素晴らしいストーリーや記事を書くために一生懸命働いたのに、他の誰かがそれを自分のものだと主張しているのを見つけることを想像してみてください。それが、人々があなたのウェブサイトのコンテンツを盗むときに起こることです。

コンテンツの盗難、または「スクレイピング」は、ウェブサイトの所有者にとって大きな問題です。これらの人々はあなたの作品をコピーし、自分のサイトで使用し、時には自分のものだと偽ることさえする泥棒です。これは非常にイライラし、不公平なことになり得ます。

この記事では、ブログコンテンツスクレイピングとは何か、コンテンツスクレイピングを減らし、防止する方法、さらにはコンテンツスクレイパーを自分の利益のために活用する方法について説明します。

WordPressでブログコンテンツのスクレイピングを防ぐための初心者ガイド

WordPressにおけるブログコンテンツスクレイピングとは?

ブログコンテンツスクレイピングとは、多数のソースからコンテンツを取得し、別のサイトに再公開することです。通常、これはブログの RSSフィードを介して自動的に行われます。

残念ながら、WordPressブログのコンテンツがこのように盗まれるのは非常に簡単で、非常に一般的です。もしあなたが経験したことがあるなら、それがどれほどストレスがたまり、イライラするかを理解しているでしょう。

時には、フォーマット、画像、動画などを含め、コンテンツがそのまま別のウェブサイトにコピー&ペーストされることがあります。

他の times、あなたのコンテンツは帰属表示とあなたのウェブサイトへのリンク付きで再投稿されますが、あなたの許可なしに。これはあなたの SEOに役立つかもしれませんが、元のコンテンツはあなたのサイトのみにホストしておきたいかもしれません。

コンテンツスクレイパーはなぜコンテンツを盗むのか?

当社のユーザーの中には、スクレイパーがコンテンツを盗む理由を尋ねてくる方がいます。通常、コンテンツ盗難の主な動機は、あなたの努力から利益を得ることです。

  • アフィリエイト手数料:不正なアフィリエイトマーケターは、検索エンジンを通じてあなたのコンテンツを使用してトラフィックを自分のサイトに誘導し、ニッチ製品を宣伝する可能性があります。
  • リードジェネレーション: 弁護士や不動産業者は、コミュニティ内で権威を得るためにコンテンツを追加するように誰かに支払うことがあり、それが他のソースからスクレイピングされていることに気づかない場合があります。
  • 広告収入: ブログ所有者は、特定のニッチ分野で「コミュニティのため」に知識のハブを作成するためにコンテンツをスクレイピングし、そのサイトに広告を掲載する可能性があります。

コンテンツのスクレイピングを完全に防ぐことは可能ですか?

この記事では、コンテンツスクレイピングを減らし、防止するために実行できるいくつかの手順を紹介します。しかし残念ながら、決意した泥棒を完全に止める方法はありません。

そのため、この記事ではコンテンツスクレイパーを利用する方法についてのセクションで締めくくりました。泥棒を常に阻止できるわけではありませんが、盗まれたコンテンツからトラフィックや収益を得ることができるかもしれません。

コンテンツがスクレイピングされたのを発見した場合、どうすればよいですか?

スクレイパーを完全に停止することはできないため、いつか誰かがあなたのブログから盗んだコンテンツを使用していることに気づくかもしれません。その場合、どうすればよいか疑問に思うかもしれません。

コンテンツスクレイパーに対処する際に人々が取るアプローチをいくつか紹介します。

  • 何もしない: スクレイパーと戦うのに多くの時間を費やすことができるため、人気のあるブロガーの中には何もしないことを選択する人もいます。Googleはすでに有名なサイトを権威として認識していますが、それは小規模なサイトには当てはまりません。したがって、私たちの意見では、このアプローチは常に最善とは限りません。
  • 削除依頼: スクレイパーに連絡してコンテンツの削除を依頼できます。彼らが拒否した場合、削除通知を提出します。WordPressで盗まれたコンテンツを簡単に見つけて削除する方法に関するガイドで、その方法を学ぶことができます。
  • 活用する: WPBeginnerからコンテンツがスクレイピングされたものを削除するために積極的に取り組んでいますが、スクレイパーからトラフィックを獲得し、収益を得るためのいくつかのテクニックも使用しています。詳細は以下の「コンテンツスクレイパーを活用する」セクションで学習できます。

そういうわけで、WordPressでブログスクレイピングを防ぐ方法を見ていきましょう。これは包括的なガイドなので、ナビゲーションを容易にするために目次を含めました。

  1. ブログの名前とロゴを著作権または商標登録する
  2. RSSフィードをスクレイピングされにくくする方法
  3. トラックバックとピンバックを無効にする
  4. スクレイパーのWordPressサイトへのアクセスをブロックする
  5. WordPressでの画像盗難を防ぐ
  6. コンテンツの手動コピーを抑制する
  7. コンテンツスクレイパーを活用する

商標法および著作権法は、多くの法的課題からあなたの知的財産権、ブランド、およびビジネスを保護します。これには、盗用や、著作物またはブランド名およびロゴの不正使用が含まれます。

サイトには著作権表示を明確に表示する必要があります。ウェブサイトのコンテンツは自動的に著作権法で保護されますが、表示することで、コンテンツが著作権で保護されており、保護された資産をビジネス目的で使用できないことを知らせることができます。

ウェブサイトに著作権表示を表示する

例えば、WordPressのフッターに動的な日付付きの著作権表示を追加することができます。これにより、著作権表示を最新の状態に保つことができます。

これにより、一部のユーザーが盗むことを思いとどまらせる可能性があります。また、停止および差止命令書を送付したり、DMCA苦情を申し立てて盗まれたコンテンツを削除したりする必要がある場合に役立ちます。

オンラインで著作権登録を申請することもできます。このプロセスは複雑になることがありますが、幸いなことに、中小企業や個人を支援できる低コストの法的サービスがあります。

ブログの名前とロゴの商標登録と著作権の取得方法に関するガイドで、その方法を学びましょう。

2. RSSフィードをスクレイピングされにくくする

ブログコンテンツのスクレイピングは通常、ブログのRSSフィードを介して自動的に行われるため、フィードに加えることができるいくつかの役立つ変更を見てみましょう。

WordPress RSSフィードに投稿の全コンテンツを含めないでください

RSSフィードには、投稿の全文ではなく、各投稿の要約を含めることができます。これには、抜粋と、日付、著者、カテゴリなどの投稿のメタデータが含まれます。

ブログコミュニティでは、RSSフィード全体を表示するか、要約フィードにするかについて、確かに議論があります。今回はその点には触れませんが、要約のみにする利点の一つは、コンテンツのスクレイピングを防ぐのに役立つということです。

WordPress管理画面の設定 » 表示設定に移動して設定を変更できます。「抜粋」オプションを選択し、「変更を保存」ボタンをクリックする必要があります。

RSS フィードには、各投稿の全文または抜粋を含めることができます

これで、RSSフィードには記事の抜粋のみが表示されます。誰かがRSSフィードを通じてあなたのコンテンツを盗んでいる場合、彼らは完全な投稿ではなく、要約しか取得できません。

サマリーを微調整したい場合は、WordPressの抜粋をカスタマイズする方法に関するガイドをご覧ください。

スクレイピングを防ぐためにRSSフィードを最適化する

WordPressのRSSフィードを最適化して、コンテンツを保護し、より多くのバックリンクを獲得し、ウェブトラフィックを増やし、その他多くの方法があります。最善の方法の1つは、RSSフィードに投稿が表示されるのを遅延させることです。

RSSフィードに投稿が表示されるのを遅らせることで、検索エンジンがコンテンツをクロールしてインデックスを作成する時間を確保し、スクレイパーのウェブサイトなどに他の場所で表示される前に、あなたのサイトが権威あるものとして認識されるようになります。

これを行う最も安全で簡単な方法は、WPCodeを使用することです。なぜなら、正しいカスタムコードをWordPressに追加するレシピが自動的に含まれているからです。

WPCodeを使用してスニペットを追加する

詳細な手順については、WordPress RSSフィードに投稿が表示されるのを遅延させる方法に関するガイドを参照してください。

3. トラックバック、ピンバック、REST APIを無効にする

ブログの初期の頃、トラックバックとピンバックは、ブログがお互いにリンクについて通知し合うための方法として導入されました。誰かがあなたのブログの投稿にリンクすると、相手のウェブサイトは自動的にあなたのブログにpingを送信します。

このピンバックは、あなたのブログのコメントモデレーションキューに、相手のウェブサイトへのリンクとともに表示されます。それを承認すると、相手はあなたのサイトからのバックリンクとメンションを得ることになります。

これにより、スパマーはあなたのサイトをスクレイピングしてトラックバックを送信するインセンティブを得ます。幸いなことに、トラックバックとピンバックを無効にすることで、スクレイパーがコンテンツを盗む理由を1つ減らすことができます。

WordPressでトラックバックとピンバックを無効にする

詳細については、今後のすべての投稿でトラックバックを無効にする方法に関するガイドをご覧ください。また、既存のWordPress投稿でトラックバックとピンを無効にする方法を学ぶことも役立つかもしれません。

WordPress REST APIを無効にする

トラックバックとピンバック以外にも、WordPress REST APIを無効にすることをお勧めします。これにより、スパマーがコンテンツをスクレイピングしやすくなる可能性があります。

WordPress REST APIを無効にする方法について、詳細なガイドがあります。

インストールして有効にするだけで、無料のWPCodeプラグインを使用し、REST APIを無効にするための事前作成済みスニペットを使用します。

4. WordPressサイトへのスクレイパーのアクセスをブロックする

スクレイパーがコンテンツを盗むのを阻止する1つの方法は、ウェブサイトへのアクセスを奪うことです。IPアドレスをブロックすることで手動で行うことができますが、ほとんどのユーザーは、Webアプリケーションファイアウォールなどのセキュリティプラグインを使用する方が簡単だと感じるでしょう。

セキュリティプラグインを使用してスクレイパーをブロックする(推奨)

スクレイパーを手動でブロックするのはトリッキーで、多くの作業が必要です。特に、ハッキングの試みや攻撃の多くは、世界中のさまざまなランダムなIPアドレスを使用して行われるためです。それらのランダムなIPアドレスすべてに対応するのはほぼ不可能です。

そのため、Web Application Firewall(WAF)として、WordfenceやSecuriのようなものが必要になります。これらは、ウェブサイトへのすべての受信トラフィックとウェブサイトの間にシールドとして機能し、ウェブサイトのトラフィックを監視し、一般的なセキュリティ脅威がWordPressサイトに到達する前にブロックします。

WPBeginnerウェブサイトでは、 Sucuriを使用しています。これは、ウェブサイトアプリケーションファイアウォールを使用して、そのような攻撃からウェブサイトを保護するウェブサイトセキュリティサービスです。

基本的に、ウェブサイトのトラフィックはすべてセキュリティサービスのサーバーを経由し、そこで不審なアクティビティが検査されます。不審なIPアドレスは、ウェブサイトに到達するのを完全にブロックします。Sucuriが3か月で450,000件のWordPress攻撃をブロックするのにどのように役立ったかをご覧ください Sucuriが450,000件のWordPress攻撃をブロックするのに役立った方法 。

スクレイパーのIPアドレスを手動でブロックまたはリダイレクトする

上級ユーザーは、スクレイパーのIPアドレスを手動でブロックすることもできます。これはより多くの作業が必要ですが、一度学習すればスクレイパーのアドレスを特定してターゲットにすることができます。ウェブ開発者のジェフ・スターは、コンテンツスクレイパーをどのように処理するかについて書いている際に、このアプローチを提案しています。

注意: ウェブサイトファイルにコードを追加することは危険です。わずかな間違いでも、サイトに重大なエラーを引き起こす可能性があります。そのため、この方法は上級ユーザーにのみ推奨します。

cPanelダッシュボードの「Raw Access Logs」にアクセスすることで、スクレイパーのIPアドレスを見つけることができます。通常よりも多くのリクエストがあるIPアドレスを探し、それらを別のテキストファイルにコピーするなどして記録しておく必要があります。

スクレイパーのIPアドレスをブロックする

ヒント: 自分自身、正規のユーザー、または検索エンジンがウェブサイトにアクセスできないようにしないように注意する必要があります。疑わしいIPアドレスをコピーし、オンラインの IP検索ツール を使用して詳細を確認してください。

IPアドレスがスクレイパーのものであると確信したら、cPanelの「IPブロッカー」ツールを使用してブロックするか、ルートの.htaccessファイルに次のようなコードを追加してブロックできます。

Deny from 123.456.789

コード内のIPアドレスをブロックしたいものに置き換えてください。複数のIPアドレスは、スペースで区切って同じ行に入力することでブロックできます。

詳細な手順については、WordPressでIPアドレスをブロックする方法に関するガイドをご覧ください。

スクレイパーを単にブロックする代わりに、ダミーのRSSフィードを送信することを検討できるとジェフは提案しています。Lorem Ipsumと迷惑な画像でいっぱいのフィードを作成したり、相手のウェブサイトに直接送信して無限ループを引き起こし、サーバーをクラッシュさせることもできます。

ダミーフィードにリダイレクトするには、.htaccessファイルに次のようなコードを追加する必要があります。

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

5. WordPressでの画像盗難を防ぐ

保護する必要があるのは、書かれたコンテンツだけではありません。WordPressでの画像盗難も防止する必要があります。

テキストと同様に、画像が盗まれるのを完全に防ぐ方法はありませんが、WordPressウェブサイトでの画像盗難を抑止する方法はたくさんあります。

例えば、WordPressの画像のホットリンクを無効にすることができます。これにより、誰かがHTMLコンテンツをスクレイピングしても、そのサイトでは画像が表示されなくなります。

また、サーバーの負荷と帯域幅の使用量を削減し、WordPressの速度とパフォーマンスを向上させます

または、クレジットを与える透かしを画像に追加することもできます。これにより、スクレイパーがあなたのコンテンツを盗んだことが明確になります。

これらの2つのテクニック、および画像を保護するその他の方法については、WordPressで画像の盗難を防ぐ方法に関するガイドで学ぶことができます。

コンテンツの手動コピーを抑制する

ほとんどのスクレイパーは自動ツールを使用しますが、コンテンツ泥棒の中には、コンテンツの全部または一部を手動でコピーしようとする人もいるかもしれません。

これをより困難にする1つの方法は、テキストのコピー&ペーストを防ぐことです。ウェブサイト上でテキストを選択しにくくすることで、これを行うことができます。

コンテンツの手動コピーを停止する方法については、WordPressでテキストの選択とコピー/ペーストを防ぐ方法に関するステップバイステップガイドをご覧ください。

ただし、これによりコンテンツを完全に保護できるわけではありません。技術に精通したユーザーは、ソースコードを表示したり、[Inspect tool](https://www.wpbeginner.com/wp-tutorials/basics-of-inspect-element-with-your-wordpress-site/ "Basics of Inspect Element: Customizing WordPress for DIY Users")を使用して好きなものをコピーできることを忘れないでください。また、この方法はすべてのWebブラウザで機能するわけではありません。

また、あなたのテキストをコピーする人がすべてコンテンツ泥棒とは限らないことを覚えておいてください。たとえば、ソーシャルメディアであなたの投稿を共有するためにタイトルをコピーしたい人もいるかもしれません。

そのため、この方法はサイトにとって本当に必要だと感じた場合にのみ使用することをお勧めします。

7. コンテンツスクレイパーを活用する

ブログが大きくなるにつれて、すべてのコンテンツスクレイパーを止めたり追跡したりすることはほぼ不可能です。私たちはまだDMCAの苦情を送っています。しかし、私たちのコンテンツを盗んでいる他のサイトが数多くあり、私たちはそれらに追いつくことができないことを知っています。

代わりに、私たちの戦略はコンテンツスクレイパーを利用しようとすることです。盗まれたコンテンツから収益を得ている、またはスクレイパーのウェブサイトから多くのトラフィックを受け取っていると見なせば、それほど悪くはありません。

スクレイパーからのトラフィックとバックリンクを獲得するために、内部リンクを習慣にしましょう

SEOに関する完全ガイドでは、内部リンクを習慣にすることを推奨しています。ブログ投稿に他のコンテンツへのリンクを配置することで、自身のサイトのページビューを増やし、直帰率を減らすことができます。

しかし、スクレイピングに関しては、2つ目の利点があります。内部リンクは、コンテンツを盗んでいる人々から貴重なバックリンクを取得できます。Googleのような検索エンジンはバックリンクをランキングシグナルとして使用するため、追加のバックリンクはSEOに良い影響を与えます。

最後に、これらの内部リンクは、スクレイパーのオーディエンスを奪うことを可能にします。才能のあるブロガーは、興味深いキーワードにリンクを配置し、ユーザーがクリックしたくなるようにします。スクレイパーのウェブサイトへの訪問者もリンクをクリックし、それが直接あなたのウェブサイトに誘導されます。

スクレイパーから収益を得るために、アフィリエイトリンクでキーワードを自動リンクする

アフィリエイトマーケティングでウェブサイトから収益を得ている場合は、RSSフィードで自動リンクを有効にすることをお勧めします。これにより、RSSリーダー経由でのみウェブサイトを読む読者からの収益を最大化できます。

さらに良いことに、あなたのコンテンツを盗んでいるサイトからお金を稼ぐのに役立ちます。

WordPressプラグインの ThirstyAffiliates を使用するだけで、指定したキーワードを自動的にアフィリエイトリンクに置き換えることができます。WordPressでキーワードをアフィリエイトリンクに自動的にリンクする方法に関するガイドでその方法を説明しています。

RSSフッターでウェブサイトを宣伝する

RSSフッターにカスタム項目を追加するには、 All in One SEO プラグインを使用できます。

例えば、自身の製品、サービス、またはコンテンツを宣伝するバナーを追加できます。

AIOSEO RSSフィードフッター保存

最も良い点は、それらのバナーがスクレイパーのウェブサイトにも表示されることです。

私たちの場合は、RSSフィードの投稿の最後に常に簡単な免責事項を追加しています。これにより、スクレイパーのサイトから元の記事へのバックリンクを得ることができます。

これにより、Googleなどの検索エンジンは私たちが権威であることを認識し、ユーザーにもサイトがコンテンツを盗んでいることを知らせることができます。

その他のヒントについては、WordPressでRSSフィードのフッターを制御する方法に関するガイドをご覧ください。

このチュートリアルがWordPressでブログコンテンツのスクレイピングを防ぐ方法を学ぶのに役立ったことを願っています。また、当社のWordPressセキュリティ完全ガイドや、専門家が選んだWordPress向け最高のコンテンツ保護プラグインもご覧ください。

この記事が気に入ったら、WordPressのビデオチュートリアルについては、YouTubeチャンネルを購読してください。 TwitterFacebookでもフォローできます。

開示:当社のコンテンツは読者によってサポートされています。これは、当社のリンクの一部をクリックすると、当社が手数料を得る可能性があることを意味します。WPBeginnerがどのように資金提供されているか、それがなぜ重要か、そしてどのように私たちをサポートできるかについては、こちらをご覧ください。当社の編集プロセスはこちらです。

究極のWordPressツールキット

無料のツールキットにアクセスしましょう - すべてのプロフェッショナルが持つべきWordPress関連の製品とリソースのコレクションです!

読者とのインタラクション

90 CommentsLeave a Reply

  1. OK すごい、これはブログコンテンツのスクレイピングを防ぐための信じられないほど包括的なガイドですね!このイライラする問題に光を当ててくれたWPBeginnerさんに感謝します。
    特にRSSフィードをスクレイピングしにくくする方法のセクションが気に入りました。以前は考えたこともありませんでした。
    RSSフィードに投稿が表示されるのを遅らせるというヒントは素晴らしいです。すぐに自分のブログで実装するつもりです!

  2. 私は、RSSフィードを使用してウェブサイトでコンテンツを作成することについて、以前から友人たちに話を聞いていました。それがどのように機能し、それによってどのようなメリットが得られるのか、正確には知りませんでした。
    他人のコンテンツをスクレイピングし、あたかも自分で作成したかのように見せかけるのは違反行為ですが、非倫理的な世界では誰が気にするでしょうか。このガイドを作成していただき、私たちのコンテンツがスクレイピングされるのを防ぎ、少なくともそれを私たちの利益に変えることができるようになりました。

  3. 記事をありがとうございます。1200以上の記事があるブログを運営しており、それにも対処し始める必要があります。貴重なアドバイスをありがとうございます。

  4. 投稿ありがとうございます。
    しかし、RSSフィードを完全に削除または無効にすることはできますか、それとも何か特別な利点がありますか。
    その後、RSSフィードを完全に無効にしたい場合、どのようにすればよいですか。
    ありがとうございます。

      • RSSフィードを無効にできることを知っておくと、コンテンツの盗難やスクレイピングの可能性を防ぐことができるため、良い考えです。
        ただし、RSSフィードを無効にすることにはいくつかのトレードオフもあります。
        RSSフィードを無効にすることにSEO上の不利はありますか?
        それともSEOやランキングとは関係ありませんか?

  5. ありがとうございます。まさに必要としていた情報です。しかし、スクレイパーは2019年でもまだRSSフィードを使用していますか?

  6. コンテンツキュレーションを行うことでサイトコンテンツを取得することについて、私たちは多くのことを聞いています。コンテンツスクレイピングはコンテンツキュレーションと同じですか?もし違うなら、両者の違いは何ですか?

    • コンテンツスクレイピングとは、許可なく他のサイトからコンテンツを取得して自分のサイトに掲載することです。コンテンツキュレーションとは、通常、自分で作成したコンテンツ内で他のコンテンツへのリンクを貼ることです。

      管理者

  7. これらの問題に直面しています。あるブランドで20件以上ありましたが、その後別の場所に移動し、また戻ってきました。

  8. ブログから非常に悪質なコンテンツスクレイパーを見つけました。彼らは私のコンテンツを盗むだけでなく、スパムブログに私の名前と同じ名前を使い、ハイフンで区切って、説明、タグ、基本的に私になろうとしています。私のブログ、YouTubeチャンネル、Facebook、Twitter、Pinterest、Google+へのリンクをRSSフィードで使用しており、それらのスパムブログに表示されます。また、PNG画像はフロントページに表示されますが、JPEGは表示されないこともわかりましたが、これはBloggerだけかもしれません。

  9. インターリンクのアイデアは本当に気に入りました。RSSの提案については、しばらくKindleの電子書籍の執筆に集中していた(コンテンツのスクレイピングについては、保護がゼロです!…だからウェブサイトの執筆に戻ってきたのです)ので、それが正確にどのように機能するかを忘れてしまったので、確認する必要があります。しかし、コンテンツを保護するための出発点を見つけたような気がします!ありがとうございます!

  10. すごい!ブログを始めるにあたって考慮すべきことがたくさんあります。私のブログはまだ2週間しか経っていません。ブログの設定には主にWP Beginnerを使用しました。初心者でも理解できるように、たくさんの良い情報がまとめられています。

    コンテンツのスクレイピングに効果があるかはわかりませんが、Copyright Proofというプラグインをインストールしました。右クリックを無効にするので、コンテンツをコピー&ペーストできなくなります。

    このプラグインは、著者サイト向けの推奨プラグインだったので使用することにしました。

  11. 素晴らしい記事ですね。私はフリーランスのジャーナリストとして働いており、多くの記事を販売しています。その記事のポリシーを決定するのは購入者次第です。
    しかし、私もいくつかのブログやアフィリエイトサイトを運営しているので、自分のコンテンツに何が起こっているのかを確認する必要があるかもしれません。

  12. 功績を認めないことは「コンテンツスクレイピング」に該当しますか?

    Jeff Starrが5年以上前にPerishable Pressでこの同じ投稿を書いたからです。

    記事の構造と用語を確認し、元の記事と比較してください。

    言っておくだけ。

  13. Blogger用のテーマを開発したばかりで、そのテーマはフルフィードが必要で動作します。コンテンツのスクレイピングが心配です。多くのスクレイパーが私のコンテンツを彼らのBloggerサイトで使用した場合、私のサイトと同じコンテンツになり、バックリンクが私のサイトを指した場合、私のブログはGoogleの目にはスパムとなり、削除されるのではないかと心配しています。

  14. この素晴らしい記事と役立つヒントをありがとうございます!実は、Googleから「薄いコンテンツ」のペナルティを受けたばかりです。SEOの専門家に助けを求めたところ、コンテンツのスクレイピングをやめるように言われました。彼らは昨日私が書いた記事のリンクを送ってきて、それを他のウェブサイトから盗んだと思ったと言われました。ひどいのは、彼らが私から盗んでいたのです。その記事だけでなく、おそらく数千の記事も!彼らはまだGoogle検索に載っていますが、私は載っていません。私がペナルティを受けているのです!私のコンテンツをスクレイピングしているウェブサイトが少なくとも3つあることがわかりました。どうすればいいのかさえわかりません。

  15. 素晴らしい記事です。

    あなたが議論したほとんどの点に、ある程度同意します。実際、いくつかの点は非常に素晴らしいです。

    しかし、あなたの唯一のビジネスがあなたのウェブサイトのコンテンツに基づいているなら、スクレイパーにもっと注意を払うべきではありませんか?

    コンテンツの盗難は、コンテンツの所有者にとって決して良いことではないと思います。

    反応的な対策よりも予防的な対策を講じることを皆で考えるべきだと思います。ShieldSquareのようなコンテンツ保護ソリューションを検討して、コンテンツスクレイピングを永久に停止させることができます。

  16. これは古い記事だと知っていますが、コンテンツのスクレイピングを容認することで悪名高いソースの1つは、WordPressの「Press This」機能です。彼らは基本的にこれを奨励しています。

  17. ついに問題の答えが見つかったと思います。誰かが私の話を盗んで「新しい」話にしているのではないかと考えていました。誰かが私を陥れようとしているのか、それとも私が正気を失っているのかと思っていました。このように考えているだけで、私はほとんど気が狂いそうになっていました。被害妄想です。私のプライベートな電話を誰かが聞いているのではないかと心配していました。実際には、すべての情報は私のブログから直接来ていたのです!この記事は私の命を救ったかもしれません。文字通りです。冗談ではなく、自分が狂っていくのではないかととても恐れていて、友人たちにフィードバックやサポートを得ようと、とても選んで話していたのですが、まるで私が頭がおかしくて精神病棟にしばらく入院する必要があるかのように見られていました。この記事は、私に起こっていたことがすべて理にかなっているようにしてくれました。ありがとうございます!安堵のあまり、言葉になりません。

  18. いくつかのヒントはありがとうですが、この記事の大部分はあまり役に立ちません。ほとんどのスクレイパーは盲目的なスクレイパーではなく、コンテンツは一般的に吸い取られ、人間の目で確認されてから公開されます。つまり、記事を見るのに1分かかったとしても、スパムの子供は1日に何百ものコピーされた記事を公開できます。フィードインポーターには事前処理オプションがあり、通常は本文のリンクを解除するように設定されているため、バックリンクの問題はコンテンツスクレイパーにとって非常に簡単に回避できます。また、RSSを要約に変換することがどのように役立つのかもわかりません。フィードインポーターは、RSSを使用して新しいコンテンツリンクを取得し、そこからHTMLの骨格をたどります。これは、Googleの利便性のために適切な画像、タイトル、リンクなどのタグでうまく設定されており、コンテンツを非常に簡単に抽出できます。

    IPアドレスをブロックするのは明らかに非常に良い解決策です。DMCAは一般的に時間の無駄です。作成に時間がかかり、愚かなホストは応答に時間がかかります(スパマーは、スパムのような活動に寛容であるため、これらのホストを特に選択するため)。すべての中で、Googleが最もイライラします。いくら報告しても、広告を表示している盗まれたコンテンツに対して何も行動を起こさず、コピーを検出するのがシステムにとって簡単であるにもかかわらず、そのクソスパムサイトを検索結果でうまくランク付けします。

    • ジョン、全く同感です。Googleから、私が自分のコンテンツを盗んでいる人物だと指摘されました。この人物は私のコンテンツを盗んでBloggerに投稿しました。信じられません。これに対する解決策が必要です。今のところ、ブロックするしかありません!

  19. その場合、ライセンスを変更し、コンテンツスクレイパーに対して積極的に削除通知を送るのが最善の方法かもしれません。その間、質の高いコンテンツ作成に注力し続けてください。

  20. こんにちは。
    いくつか懸念事項の答えを探していたところ、偶然あなたの記事を見つけました。
    数ヶ月前に、友人たちと一緒にイタリアでのDIYに関するウェブサイトを立ち上げました。予想以上に順調で、ランキングも高く、トラフィックも多いです。しかし、PRはまだ0です。私たちのコンテンツはクリエイティブ・コモンズ4.0ライセンスを採用しています。なぜなら、コンテンツを共有する良い方法だと心から信じているからです。しかしながら:
    しばらく前に、多くのトラフィックを持つPR4のサイトが、私たちのトップ記事をコピーし、私たちのホームページにリンクバックしていることに気づきました(これはCCライセンスで本来行うべきことではありませんが、それでも構いません)。問題は以下の通りです:
    1. そのサイト(私たちのサイト)のコンテンツをスクレイピングし、私たちのサイトではなくそのサイトにリンクバックしている、はるかに多くの小規模なサイトが存在する。
    2. PR4のサイトと一部の小規模なサイトが、なぜか私たちのサイトよりも上位にランクされている。
    3. 私たちのコンテンツにGoogleペナルティが課せられたという強い示唆がある。なぜなら、他の多くのページ(長期間オンラインになっている)よりもPRが低いからだ。

    PR4サイトと連絡を取っており、彼らが私たちのコンテンツを使用することに問題はありません。ただし、元の記事へのリンクバックを条件とします(それがCCライセンスの趣旨です)。しかし、Googleのペナルティを回避するための解決策を探しています。rel canonicalで対応できますか?ご意見をお聞かせください。ライセンスを変更し、コンテンツのコピーに対してより積極的に対応すべきでしょうか?
    ありがとうございます!

    • フィリップさん、まだアカウントを作成していない場合は、サイトのウェブマスターツールアカウントを作成し、サイトマップを送信してください。サイトの問題、検索でのサイトの状況を把握するのに役立ち、他にも多くのツールを使用できます。また、Googleが一部のコンテンツが最初にどこに表示されたかをよりよく理解するのに役立ちます。

      ライセンスを変更しても、コンテンツスクレイパーがあなたのコンテンツをコピーするのを止めることはできないと考えています。

      管理者

      • こんにちは!はい、ウェブマスターツールのアカウントを設定し、サイトをGoogle+ページに、そしてほとんどの著者をパブリッシャーと著者タグを使用してGoogle+プロフィールにリンクしました。検索スニペットでは著者の設定はうまく機能しているようですが、今のところスクレイピングされたコンテンツの場合、あまり違いがないようです。私たちのコンテンツをスクレイピングしているPRの高いページがまだ上位に表示されています…

  21. これによる影響を最小限に抑える最善の方法の1つは、効果的にpingすることです。pingを実行し、ページを手動でGoogleとBingに送信すると、スパイダーがサイトにすぐにアクセスします。それらはページをできるだけ早くインデックスし、他のサイトで重複コンテンツを見つけたときにあなたを権威と見なします。

    しかし、これがPageRankに関係しているのではないかという密かな疑念があります…しかし、マット・カッツ(Googleのウェブスパムチーム)はこのトピックについてピンガーの使用を推奨しています。しかし、彼が何を言っているのかどれだけ信頼できるか確信が持てません。

    その他のサービスを追加するには、設定 -> ライティング設定 -> 更新サービス -> 「更新サービス」リンクを新しいタブで開き、すべての更新サービスをコピーします。WordPressに戻り、ピンリストに貼り付けて保存をクリックします。

    Bing Webmaster Toolsでアカウントを開き、手動でURLを送信して迅速なインデックス作成を行います。

  22. 最近、私のブログからRSSフィードを取得できる人を見つけました。私のブログはYoastの「この投稿は最初に~で見つかりました」という行付きの要約フィードであることを念頭に置いてください。私はその人に感謝のメッセージを送りました。彼は私にバックリンクを提供してくれていること、そしてGoogleに私のウェブサイトをコピーしていることを伝えています(タイムスタンプを見てどちらが先に公開されたかを確認できるため)。

    2日後に確認したところ、私のすべてのものが奇妙に消えていました…

  23. このWPアンチスクレイピングプラグインを見たこと、または使用したことがありますか?http://wordpress.org/plugins/wordpress-data-guards/ しっかりしているように聞こえますが、ダウンロードした人は非常に少ないです。私は技術者ではないので、その価値やSEOへの影響について意見をいただけると幸いです。

    • そのプラグインは間違いなく使用できます。右クリック、コピー用のキーボードショートカット、IPブラックリストなどをブロックします。これらはすべて手動でのスクレイピングを防ぎますが、ほとんどのコンテンツスクレイパーは自動ツールを使用します。そのため、これらはどれも非常に役立つものではありません。

      管理者

    • 返信ありがとうございます。プロバージョンではボット攻撃から保護してくれると記載されているので、スクレイパーボットのことだと思いますか?価格がネックで全サイトにインストールするのは気が引けますが、効果を見るために1つのサイトで試してみるかもしれません。

  24. これは、私がウェブ上でこれまでに出会った中で最高の「初心者向け」記事の1つ、いや、最高のものかもしれません。

    読んだ後、セキュリティコンサルタントと会ったような気分になりました。

    今まさにこれらのテクニックを適用しています!

    ありがとう。このサイトのフォロワーになりました。

  25. 私に起こったのは数回だけです。アメリカ国外のブロガーが私の投稿をそのまま自分のサイトに投稿しました。私のYouTube動画が埋め込まれた単一の投稿だったので、とにかく私のチャンネルのCTRが訪問数で大幅に増加したので、あまり気にしませんでした。

  26. ありがとう、ありがとう、そしてありがとうと言いたいです!

    今日あなたのウェブサイトを発見したばかりで、これまでのところ3つの記事(この記事を含む)しか読んでいませんが、非常に感銘を受けています。

    ブログを始めてまだ5週間ですが、特に努力の結果としてトラフィックとユーザーエンゲージメントが増加しているのを見て、中毒性があると感じています。1日でブログサイトに100人の訪問者があり、誰が参照しているかを確認できることは、ソーシャルメディアマーケティングと新規訪問者とのインタラクションを増やすためにできる限りのことを学びたいという意欲を与えてくれます。

    敬具、
    @earthlingEd

  27. あなたのウェブサイトが大好きで、コンテンツスクレイピングについて読んでショックを受けました!読者には気にならないが、スクレイパーのサイトには非常に明白な透かしを何らかの方法で作成する方法はありますか?

  28. 他のウェブサイトの記事全体を投稿し、出典元ウェブサイト名を記事の下部に記載することは合法ですか?

  29. 何か方法/プラグインはありますか?

    誰かが私のファッションブログの写真をコピーして、彼らのフォーラムに投稿しています

    しかし、フォーラムで画像をクリックすると、新しいウィンドウで開きます。

    画像をコピーした人がその画像に関連する私のブログ記事にリダイレクトされるようなプラグインやスクリプトはありますか?

    プラグインはまだありますか?投稿画像とリンク?

      • 変更したばかりです

        右側に画像をアップロードすると、URLリンクが表示されます

        デフォルト設定はメディアファイルです
        添付ファイルのURLで変更する必要があります

        そして完了!

        あなたのブログの画像を誰かがコピーした場合。それはあなたの投稿ページへのバックリンクになります

  30. 誰かが英語の記事を書き起こし、それをGoogle翻訳ではなく、自分の頭で他の言語に翻訳した場合、例えばその国の大多数の人々が英語を理解できないからだとします。それでもあなたは彼らをスクレイパーだと指摘しますか?それともそれについてどう思いますか?個人的には、それほど問題だとは思いません。もちろん、「著者」は元の記事にリンクを張り、自分の記事が翻訳されたものであることを明記すべきだと信じています。

  31. これは素晴らしい記事です。これを読んだ後、私がコンテンツスクレイパーだと思わないでください。私はあなたの抜粋(キュレーションされたもの)を使用しました。常に「続きを読む」があり、そこにあなたのページのリンクがあります。また、私の投稿の多くはツイートされており、そこにあなたのTwitterアカウントを含めています。これが望ましくない場合はお知らせください。喜んで削除します。あなたの仕事に非常に感謝しており、訪問者と共有したいと思っています。訪問者を盗むことを意図したものではなく、私の訪問者に良い価値を提供し、さらに多くの情報を得るためにあなたに送ることを可能にするものです。

    • Gregさん、抜粋のみを表示し、ユーザーを私たちのサイトに誘導して記事全体を読んでもらう限り、それはスクレイピングではありません。あなたが言ったように、それはキュレーションです。RedditやDiggなど、多くの人気サイトがそれを行っています。

      管理者

  32. 私のサイトにはオリジナルのセキュリティ記事がたくさんありますが、いくつかスクレイピングされました。スクレイピングしたサイトは私の記事をYahoo!ニュースに掲載し、人々がコメントしていました。私はオリジナルの著者であることをコメントで伝え、いくつかのコメントに返信することでこの問題に対処しました。内部リンクがあったので、すぐに気づくことができました。私が書こうと思っているトリックは、スクレイパーのサイトから来た人に、何が起こったかを伝えるバナーや画像を表示させることです。終わりのないリクエストの提案は、コンピューター詐欺および不正行為法の下では違法のように聞こえます。私は弁護士ではありません。私はセキュリティについて書くだけなので、コンピューターのセキュリティ法を知っておく必要があります。

    会社のメールアドレスを有効なメールアドレスとしてフォームが受け付けなかったのは好きではありません。

    • ライアンさん、当社のフォームでビジネスメールが承認されなかったとのこと、申し訳ありません。何が起こったのかはわかりませんが、すべての有効なメールを承認するように設計されています。

      管理者

  33. 素晴らしい、情報量の多い記事です。スクレイパーを活用するというアプローチは気に入っています。ただし、IPアドレスのブロックは常に有効とは限りません。真剣なスクレイパーは、匿名または無料のプロキシリストを頻繁に使用するため、この場合、IPアドレスを1つブラックリストに登録しても、スクレイパーが頻繁に変更するため、効果的な解決策にならない可能性があります。1つの解決策は、特定のIPアドレスからの異常なトラフィック(例えば、1秒あたり20ヒット以上)を検出し、CAPTCHAで挑戦する小さなスクリプトを作成することです。応答がない場合は、IPアドレスを約30分間一時的にブラックリストに登録します。数ヒット後にマウス、タッチ、またはキーボードの動きを検出する別のJavaScriptで強化することもできます。キーボード、マウス、またはタッチが検出されない場合は、スクレイパーを一時ブラックリストに登録できます。これは私たちにとって非常に効果的でした。

  34. あなたのソリューションはコンテンツスクレイパーには十分です。
    しかし、人々が手動でコンテンツをコピーしてFacebookページに貼り付けている場合はどうでしょうか。
    tyntを実装しましたが、彼らは元の記事へのリンクを削除します。このような状況をどのように処理できるか、何かアイデアはありますか。

      • 実はIMWealth Buildersが作成したプラグインがあり、おそらく彼らのプラグインで唯一気に入っているものです。残りはかなりゴミで、アフィリエイト手数料のためにEコマースサイト(CB、Azon、CJなど)をスクレイピングするものです。

        「Covert Copy Traffic」と呼ばれ、指定した単語数の前または後に任意のテキストを設定できます。例えば、18語の後に「このコンテンツはxxxxxxx.comから取得されました」と投稿するように設定したとします。すると、誰かがウェブサイトから18語以上をコピー&ペーストすると、そのテキストが末尾に追加されます。17語以下であれば何も起こりません。

        これらは単なる設定例でした。非常に便利なプラグインで、見事に機能します。テキスト挿入を回避するために考えられるほぼすべての方法を試しましたが、不可能のようです。プラグインは強すぎます。

        • はい、その通りです。そのスクリプトを使用して、「続きを読む」の代わりに「コンテンツはyourwebsite.comから取得しました」と表示できます。

        • 彼らのAmazonなどのプログラムはスクレイパーだというのは本当ですか?もしそうなら、私は彼らから購入した際に大きな間違いを犯したことになります。幸い、まだ使用していません。

        • ええ、ジェナエ、Amazonは彼らのページからコンテンツをコピーすることを許可しているので、法的には問題ありません。それは彼らの販売を助けます、アフィリエイトこそがAmazonがAmazonである理由です。

          しかし、Googleやその他の(重要な)検索エンジンは、それを「薄いアフィリエイトサイト」と見なします。つまり、オリジナルのコンテンツがないということです。したがって、サイトにも一定の割合のオリジナルコンテンツがない限り、ランク付けされません。

          スクレイパーは、スパイダー/クローラーにすぎません。一般的にはソケットモードで実行されますが、ブラウザで実行されるものもあります。

          スクレイパーとラベル付けされているからといって、それが悪いとは限りません。私は自分のサイトの不正なリンクをチェックするためにスクレイパーやスパイダーを定期的に使用しており、競合分析やキーワードリサーチ、その他誰にも害を与えず、自分に利益をもたらすさまざまなタスクのために他者のサイトをチェックしています。

          しかし、著作権侵害を目的としたスクレイピングは好きではありませんし、容認もできません。この議論はまさにそれについてです。

          Googleは、他の何百もの検索エンジンとともに、ウェブをインデックスするためにスパイダー「Google Bot」を使用しています。さまざまな目的でウェブをクロールするスパイダーは何千、何十万と存在します。Googleはウェブサイトを「キャッシュ」するためにもスクレイピングします。歴史的なウェブアーカイブのような、私たちが必要とする多くの重要なサービスも同様です。

  35. 私のコンテンツをコピーしているサイトを積極的に探し、コンテンツを削除してもらうところです。それが私のサイトのランキングに影響を与えていることを知っているので、何か対策を講じなければなりません。DMCA通知を送ることができるようになるには、どのくらいの量がコピーされている必要がありますか?記事の段落一つで、盗用と呼ぶことができますか?

  36. 自己尊重のあるオートブロガーは、リンクをすべて削除し、自分のアフィリエイトリンクを挿入するため、コンテンツをそのまま使用するのではなく、リンクを取得するというあなたの方法は通常失敗することをあなたは言及していません。

      • 同感です!スパマー、スクレイパー、自動ブログ作成者のために、地球の中心近くに非常に特別な「ホットプレイス」があります…

  37. アフィリエイトリンクを含めるのが最善のアイデアだと思います。
    最後のペンギンアップデートの後、私のウェブサイトはペナルティを受けました。分析を開始したところ、他の多くのサイトが私のコンテンツをコピーしていることがわかりました。理由は何かわかりませんが、それらのウェブサイトは私のコンテンツを使用して、検索エンジンで私よりも上位にランク付けされています。

    • アフィリエイトリンクだけでなく。できるだけ多くの内部リンクを含めてください。それらのサイトがあなたの他のページにリンクバックしている場合、Googleはあなたが権威あるサイトであることを知るでしょう。

      管理者

      • wpbeginner.comチーム様。この記事には本当に感謝していますが、ページ/投稿に内部リンクを配置することに関して1つ質問があります。

        「絶対」リンクのことでしょうか?そうでなければ、コンテンツがスクレイプされた場合、これはあなたの利益にならないかもしれません…さて、これまでのところ、私もあなたと同じように相対リンクを使用してきました。どちらが最善の方法ですか?よろしくお願いします!

  38. まず、あなたのチュートリアルは本当に素晴らしいです。脱帽です!ただ一つ疑問があります。サイトがスクレイパーサイトかどうかはどうすればわかりますか?あなたの方法を使ってみたのですが、Googleウェブマスターツールが私のサイトへのリンクが262件あると報告しており、知らないサイトがたくさんあります…そのため混乱しています…サイトがスクレイパーサイトか権威あるサイトかを確認するにはどうすればよいですか?そのようなツールはありますか?よろしくお願いします!

      • はい、それは本当です…しかし、スクレイピングサイトで自分の記事を見つけたくない場合はどうなりますか…GWTによって報告されているので、自分の記事がそこにあることはわかっています。htaccessファイルにこれらのrewritecondルールを挿入して、そのIPアドレスをブロックしたいだけです…悪いサイトで自分の記事を探したり、記事の削除を依頼したりする時間を無駄にしたくありません。

  39. この記事、そしてサイト全体に感謝します!。あまりにも気に入ったので、このリソースをどのように追跡できるかと思っていました。そして今、下に購読オプションがあることに気づきました。コメントの仕方ですね!

  40. コンテンツスクレイピングの防止はほぼ不可能です。コンテンツスクレイパーが私に害を及ぼすとは思いません。彼らは私が質の高いコンテンツを持っていることに投票しているだけです。Googleは元の公開者を検出するのに十分賢いです。誰も心配する必要はありません。

  41. 非常に有益です。Cloudflareを使用している場合、ScrapeShieldという新しいアプリがあり、サイトのコンテンツを無料で簡単に保護および追跡/監視できます。

    • すごい、それは素晴らしいですね…Cloudflareを使っていますか?CDNサービスを使ったことがないので、レビューをお願いしたかったのです。無料であることは知っていますが、私のサイトの読み込み時間はすでに素晴らしいので必要ないと思っていました…今、ScrapeShieldがあるので、ぜひチェックしてみようと思います…Cloudflareを使い始めたら、他にどのようなアプリが利用できますか?ありがとうございます。

      • こんにちは。
        IMO、@cloudflare は本当に素晴らしいです。私のサイトと妻のブログの 2 つのサイトを運用していますが、本当に信じられないほど高速です。しかし、それは彼らが提供するセキュリティ、トラフィック分析、アプリサポート(自動アプリインストール)については言うまでもありません。

        すべてのホスティング設定が異なることは承知していますが、当社の両方のサイトはMedia Temple (gs)Grid Serviceで稼働しています。正直なところ、W3 Total CacheとAmazon S3をCDNとして使用していた頃よりも、当社のサイトは現在の方が高速に動作しています。実際、コンテンツの最小化とキャッシュには引き続きW3TCを使用していますが、CDN、DNS、セキュリティサービスにはCloudFlareを使用しています。

        強くお勧めします…実際、WPBeginnerの誰かがCloudFlareサービスについて、詳細で経験に基づいた意見を私たちに提供してくれたら、本当に感謝します。私にとっては、素晴らしいものでした!

  42. 名前は今思い出せませんが、Google検索を代わりに行ってくれるプラグインもあります。また、RSSにアプリが検索するコードを追加します。

  43. 素晴らしい投稿ですね。私のコンテンツを取得しているオートブログがたくさんあることを知っています。ペンギンアップデートの後、私のサイトは以前よりもGoogleからのトラフィックが3倍になりました。しかし、多くの災害やオリジナルコンテンツジェネレーターについて読んだ後、Googleによる将来のペナルティを心配しています。 
     
    通常、Googleは良い権威あるバックリンクを持つ高PRサイトを尊重するというのは私の経験です。しかし、サイトはまだ1年しか経っておらず、PRは5未満です。 
     
    スクレイパーに連絡しようとしましたが、ほとんどが連絡フォームを持っていませんでした。そのため、スクレイパーのIPアドレスをブロックするためにhtaccessメソッドを試してみようと思います。しかし、その一方で、FeedBurnerを使用できるものもあります。

    • 個人的には、ほとんどのユーザーがRSSを使用しないため、RSSは気にしません。代わりにニュースレターフィードを提供してください。それは同じトリックを実行し、さらに(正しく行われた場合)マーケティング用のメールを取得できます。私の経験では、ほとんどの人はRSSをブックマークするよりもブログを購読する可能性が高いです。したがって、RSSをオフにする方が良いです。これは、WordPress SEO by Yoastやその他のさまざまなプラグインを使用して行うことができます。

      その後、上記で述べた戦略も実装すれば、うまくいくはずです。不要なヘッダー RSD WLM などはすべて削除してください。

      効果的にスクレイピングできるものはいくつか残るでしょうが、これらのトリックはそれらの多くを大幅に減らすでしょう。

返信する

コメントを残していただきありがとうございます。すべてのコメントは、当社のコメントポリシーに従ってモデレーションされますので、ご了承ください。メールアドレスは公開されません。名前フィールドにキーワードを使用しないでください。個人的で有意義な会話をしましょう。