Trusted WordPress tutorials, when you need them most.
Beginner’s Guide to WordPress
Coppa WPB
25 Million+
Websites using our plugins
16+
Years of WordPress experience
3000+
WordPress tutorials
by experts

Guida per principianti alla prevenzione dello scraping dei contenuti del blog in WordPress

Nota editoriale: guadagniamo una commissione dai link dei partner su WPBeginner. Le commissioni non influenzano le opinioni o le valutazioni dei nostri redattori. Per saperne di più su Processo editoriale.

Siete alla ricerca di un modo per impedire a spammer e truffatori di rubare i post del vostro blog WordPress utilizzando i content scrapers?

È molto frustrante per il proprietario di un sito web vedere che qualcuno ruba i vostri contenuti di alta qualità senza autorizzazione, li monetizza, vi supera in Google e vi ruba il pubblico.

In questo articolo spiegheremo cos’è lo scraping dei contenuti dei blog, come si può ridurre e prevenire lo scraping dei contenuti e anche come sfruttare i content scrapers a proprio vantaggio.

Beginner's Guide to Preventing Blog Content Scraping in WordPress

Che cos’è lo scraping dei contenuti del blog in WordPress?

Lo scraping di contenuti del blog avviene quando i contenuti vengono presi da numerose fonti e ripubblicati su un altro sito. Di solito, questo avviene automaticamente tramite il feed RSS del blog.

Purtroppo è molto facile e molto comune che i contenuti del vostro blog WordPress vengano rubati in questo modo. Se vi è capitato, capite bene quanto possa essere stressante e frustrante.

A volte i contenuti vengono semplicemente copiati e incollati direttamente su un altro sito web, compresi la formattazione, le immagini, i video e altro ancora.

Altre volte, i vostri contenuti saranno ripubblicati con l’attribuzione e il link al vostro sito web, ma senza il vostro permesso. Anche se questo può aiutare la SEO, è meglio mantenere i contenuti originali solo sul vostro sito.

Perché gli scrapers di contenuti rubano i contenuti?

Alcuni dei nostri utenti ci hanno chiesto perché gli scrapers rubano i contenuti. Di solito, la motivazione principale del furto di contenuti è quella di trarre profitto dal vostro duro lavoro:

  • Commissione di affiliazione: Gli affiliati disonesti possono utilizzare i vostri contenuti per portare traffico al loro sito attraverso i motori di ricerca, al fine di promuovere i loro prodotti di nicchia.
  • Generazione di lead: Avvocati e agenti immobiliari possono pagare qualcuno per aggiungere contenuti e guadagnare autorevolezza nella loro comunità, senza rendersi conto che sono stati copiati da altre fonti.
  • Entrate pubblicitarie: I proprietari di blog possono scannerizzare i contenuti per creare un centro di conoscenza in una certa nicchia “per il bene della comunità” e poi tappezzare il sito di pubblicità.

È possibile prevenire completamente lo scraping dei contenuti?

In questo articolo vi mostreremo alcune misure che potete adottare per ridurre e prevenire lo scraping di contenuti. Purtroppo, però, non c’è modo di fermare completamente un ladro determinato.

Ecco perché abbiamo concluso l’articolo con una sezione dedicata a come trarre vantaggio dagli scrapers di contenuti. Sebbene non sia sempre possibile fermare un ladro, potreste essere in grado di guadagnare traffico e ricavi grazie ai contenuti che vi hanno rubato.

Cosa fare quando si scopre che qualcuno ha copiato i vostri contenuti?

Poiché non è possibile bloccare completamente gli scrapers, un giorno potreste scoprire che qualcuno sta utilizzando contenuti rubati dal vostro blog. Vi chiederete cosa fare quando ciò accade.

Ecco alcuni approcci adottati quando si ha a che fare con gli scrapers di contenuti:

  • Non fare nulla: si può perdere molto tempo a combattere gli scrapers, quindi alcuni blogger famosi decidono di non fare nulla. Google considera già i siti famosi come autorità, ma questo non vale per i siti più piccoli. Quindi questo approccio non è sempre il migliore, a nostro avviso.
  • Take Down: è possibile contattare lo scraper e chiedergli di rimuovere il contenuto. Se si rifiuta, si può inviare una notifica di rimozione. Per sapere come fare, consultate la nostra guida su come trovare e rimuovere facilmente i contenuti rubati in WordPress.
  • Sfruttare il vantaggio: Se da un lato lavoriamo attivamente per far eliminare i contenuti scrapati da WPBeginner, dall’altro utilizziamo alcune tecniche per ottenere traffico e guadagnare dagli scrapers. Per sapere come fare, consultate la sezione “Sfruttare gli scrapers di contenuti”.

Detto questo, diamo un’occhiata a come prevenire lo scraping dei blog in WordPress. Poiché si tratta di una guida completa, abbiamo incluso un indice per facilitare la navigazione:

Le leggi sui marchi e sul copyright proteggono i vostri diritti di proprietà intellettuale, il vostro marchio e la vostra azienda da molte sfide legali. Ciò include il plagio e l’uso illegale del vostro materiale protetto da copyright o del nome e del logo del vostro marchio.

Dovreste esporre chiaramente un avviso di copyright sul vostro sito. Anche se i contenuti del vostro sito web sono automaticamente coperti dalle leggi sul copyright, l’affissione di un avviso vi farà sapere che i vostri contenuti sono protetti da copyright e che non possono utilizzare le vostre proprietà protette a fini commerciali.

Display a Copyright Notice on Your Website

Ad esempio, è possibile aggiungere una nota di copyright con una data dinamica al footer di WordPress. In questo modo la vostra nota di copyright sarà sempre aggiornata.

Questo potrebbe scoraggiare alcuni utenti dal rubare. Sarà inoltre utile nel caso in cui dobbiate inviare una lettera di diffida o presentare un reclamo DCMA per rimuovere i contenuti rubati.

È anche possibile richiedere la registrazione del copyright online. Questa procedura può essere complicata, ma fortunatamente esistono servizi legali a basso costo che possono aiutare le piccole imprese e i privati.

Scoprite come nella nostra guida su come depositare il marchio e il copyright del nome e del logo del vostro blog.

2. Rendere il vostro feed RSS più difficile da raschiare

Poiché lo scraping dei contenuti dei blog avviene di solito in modo automatico attraverso il feed RSS del vostro blog, vediamo alcune utili modifiche che potete apportare al vostro feed.

Non includete il contenuto completo del post nel vostro feed RSS WordPress

È possibile includere nel feed RSS solo un riassunto di ogni post, invece del contenuto completo. Questo include un estratto e i metadati del post, come la data, l’autore e la categoria.

Nella comunità dei blogger si discute se sia meglio avere feed RSS completi o feed di riepilogo. Non ci addentreremo in questo argomento, se non per dire che uno dei vantaggi di avere solo un sommario è che aiuta a prevenire lo scraping dei contenuti.

È possibile modificare le impostazioni andando su Impostazioni ” Lettura nel pannello di amministrazione di WordPress. È necessario selezionare l’opzione “Estratto” e poi fare clic sul pulsante “Salva modifiche”.

RSS Feeds Can Contain Full Text or an Excerpt of Each Post

Ora, il feed RSS mostrerà solo un estratto del vostro articolo. Se qualcuno ruba i vostri contenuti attraverso il vostro feed RSS, otterrà solo il riassunto, non il post completo.

Se desiderate modificare il sommario, potete consultare la nostra guida su come personalizzare gli estratti di WordPress.

Ottimizzare il feed RSS per evitare lo scraping

Ci sono altri modi per ottimizzare il feed RSS di WordPress per proteggere i contenuti, ottenere più backlink, aumentare il traffico web e altro ancora. Uno dei modi migliori è quello di ritardare la comparsa dei post nel feed RSS.

Il vantaggio è che, ritardando la comparsa dei post nel feed RSS, si dà ai motori di ricerca il tempo di scansionare e indicizzare i contenuti prima che appaiano altrove, ad esempio sui siti web degli scraper. I motori di ricerca vedranno quindi il vostro sito come un’autorità.

Il modo più sicuro e semplice per farlo è usare WPCode, perché ha una ricetta che aggiunge automaticamente il codice personalizzato corretto a WordPress.

Add a snippet using WPCode

Per istruzioni dettagliate, consultate la nostra guida su come ritardare la visualizzazione dei post nel feed RSS di WordPress.

3. Disattivare Trackback, Pingback e API REST

Agli albori del blogging, i trackback e i pingback sono stati introdotti come un modo per i blog di notificarsi reciprocamente i link. Quando qualcuno rimanda a un post del vostro blog, il suo sito invia automaticamente un ping al vostro.

Questo pingback apparirà quindi nella coda di moderazione dei commenti del vostro blog con un link al loro sito web. Se lo approvate, i commenti riceveranno un backlink e una menzione dal vostro sito.

In questo modo, lo spammer è incentivato a fare lo scraping del vostro sito e a inviare trackback. Fortunatamente, è possibile disabilitare trackback e pingback per dare agli scraper un motivo in meno per rubare i vostri contenuti.

Disabling Trackbacks and Pingbacks in WordPress

Per ulteriori informazioni, consultate la nostra guida su come disabilitare i trackback su tutti i post futuri. Potreste anche imparare a disabilitare i trackback e i ping sui post esistenti di WordPress.

Disattivare l’API REST di WordPress

Oltre ai trackback e ai pingback, consigliamo anche di disabilitare l’API REST di WordPress, in quanto può facilitare lo scraping dei vostri contenuti da parte degli spammer.

Abbiamo una guida dettagliata su come disabilitare l’API REST di WordPress.

È sufficiente installare e attivare il plugin gratuito WPCode e utilizzare lo snippet preconfezionato per disabilitare l’API REST.

4. Bloccare l’accesso dello scraper al vostro sito WordPress

Un modo per impedire agli scrapers di rubare i vostri contenuti è impedire loro di accedere al vostro sito web. È possibile farlo manualmente bloccando il loro indirizzo IP, ma per la maggior parte degli utenti è più facile utilizzare un plugin di sicurezza come un firewall per applicazioni web.

Bloccare lo scraper con un plugin di sicurezza (consigliato)

Bloccare manualmente gli scrapers è complicato e richiede molto lavoro. Soprattutto perché molti tentativi di hacking e attacchi vengono effettuati utilizzando una vasta gamma di indirizzi IP casuali da tutto il mondo. È quasi impossibile tenere il passo con tutti questi indirizzi IP casuali.

Ecco perché avete bisogno di un Web Application Firewall (WAF) come Wordfence o Securi. Questi agiscono come uno scudo tra il vostro sito web e tutto il traffico in entrata, monitorando il traffico del sito e bloccando le minacce alla sicurezza più comuni prima che raggiungano il vostro sito WordPress.

Per il sito WPBeginner utilizziamo Sucuri. Si tratta di un servizio di sicurezza per siti web che protegge il vostro sito da tali attacchi utilizzando un firewall per applicazioni web.

In pratica, tutto il traffico del vostro sito web passa attraverso i server del servizio di sicurezza, dove viene esaminato alla ricerca di attività sospette. Il servizio blocca automaticamente gli indirizzi IP sospetti per impedire che raggiungano il vostro sito web. Scoprite come Sucuri ci ha aiutato a bloccare 450.000 attacchi WordPress in 3 mesi.

Bloccare o reindirizzare manualmente l’indirizzo IP dello scraper

Gli utenti esperti possono anche bloccare manualmente l’indirizzo IP di uno scraper. Si tratta di un’operazione più laboriosa, ma una volta appreso l’indirizzo dello scraper, è possibile colpirlo in modo specifico. Lo sviluppatore web Jeff Star suggerisce questo approccio quando scrive di come gestisce gli scraper di contenuti.

Nota: l ‘aggiunta di codice ai file del sito web può essere pericolosa. Anche un piccolo errore può causare gravi errori nel sito. Per questo motivo consigliamo questo metodo solo agli utenti esperti.

È possibile trovare l’indirizzo IP dello scraper visitando “Raw Access Logs” nella dashboard del cPanel del vostro account di web hosting. Dovete cercare gli indirizzi IP con un numero insolitamente alto di richieste e tenerne traccia, ad esempio copiandoli in un file di testo separato.

Blocking the Scraper's IP Address

Suggerimento: dovete assicurarvi di non bloccare voi stessi, gli utenti legittimi o i motori di ricerca dall’accesso al vostro sito web. Copiate un indirizzo IP dall’aspetto sospetto e utilizzate gli strumenti di ricerca IP online per saperne di più.

Una volta accertato che l’indirizzo IP appartiene a uno scraper, è possibile bloccarlo utilizzando lo strumento “IP Blocker” di cPanel o aggiungendo un codice come questo nel file .htaccess principale:

Deny from 123.456.789

Assicuratevi di sostituire l’indirizzo IP nel codice con quello che volete bloccare. È possibile bloccare più indirizzi IP inserendoli sulla stessa riga, separati da spazi.

Per istruzioni dettagliate, consultate la nostra guida su come bloccare gli indirizzi IP in WordPress.

Invece di bloccare semplicemente gli scrapers, Jeff suggerisce di inviare loro dei feed RSS fittizi. Si potrebbero creare feed pieni di Lorem Ipsum e immagini fastidiose o addirittura rimandarli direttamente al loro sito web, causando un loop infinito e mandando in crash il loro server.

Per reindirizzarli a un feed fittizio, è necessario aggiungere un codice come questo al file .htaccess:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

5. Prevenire il furto di immagini in WordPress

Non dovete proteggere solo i vostri contenuti scritti. Dovete anche prevenire il furto di immagini in WordPress.

Come per il testo, non c’è modo di impedire completamente il furto di immagini, ma ci sono molti modi per scoraggiare il furto di immagini su un sito WordPress.

Ad esempio, è possibile disabilitare l’hotlinking delle immagini di WordPress. In questo modo, se qualcuno fa uno scraping del vostro contenuto HTML, le sue immagini non verranno caricate sul suo sito.

Ridurrà inoltre il carico del server e l’utilizzo della larghezza di banda, aumentando la velocità e le prestazioni di WordPress.

In alternativa, potete aggiungere alle vostre immagini un watermark che vi attribuisca il merito. In questo modo sarà chiaro che lo scraper ha rubato i vostri contenuti.

Potete imparare queste due tecniche e altri modi per proteggere le vostre immagini nella nostra guida sui modi per prevenire il furto di immagini in WordPress.

6. Scoraggiare la copia manuale dei vostri contenuti

Mentre la maggior parte degli scrapers utilizza strumenti automatici, alcuni ladri di contenuti possono cercare di copiare manualmente tutti o parte dei vostri contenuti.

Un modo per rendere più difficile questa operazione è impedire loro di copiare e incollare il vostro testo. A tal fine, è possibile rendere più difficile la selezione del testo sul vostro sito web.

Per sapere come impedire la copia manuale dei vostri contenuti, consultate la nostra guida passo passo su come impedire la selezione del testo e il copia/incolla in WordPress.

Tuttavia, questo non protegge completamente i contenuti. Ricordate che gli utenti esperti di tecnologia possono comunque visualizzare il codice sorgente o utilizzare lo strumento Inspect per copiare tutto ciò che desiderano. Inoltre, questo metodo non funziona con tutti i browser web.

Inoltre, tenete presente che non tutti quelli che copiano il vostro testo sono ladri di contenuti. Ad esempio, alcune persone potrebbero voler copiare il titolo per condividere il vostro post sui social media.

Per questo motivo vi consigliamo di utilizzare questo metodo solo se lo ritenete veramente necessario per il vostro sito.

7. Sfruttare i content scrapers

Quando il vostro blog diventa più grande, è quasi impossibile fermare o tenere traccia di tutti gli scrapers di contenuti. Noi continuiamo a inviare reclami DMCA. Tuttavia, sappiamo che ci sono tonnellate di altri siti che rubano i nostri contenuti e non riusciamo a stargli dietro.

Il nostro approccio consiste invece nel cercare di trarre vantaggio dagli scraper di contenuti. Non è poi così male quando si vede che si guadagna con i contenuti rubati o che si riceve molto traffico dal sito web di uno scraper.

Fare del linking interno un’abitudine per guadagnare traffico e backlink dagli scrapers

Nella nostra guida definitiva sulla SEO, vi consigliamo di fare del linking interno un’abitudine. Inserendo nei vostri post dei link ad altri contenuti, potrete aumentare le pagine viste e ridurre la frequenza di rimbalzo del vostro sito.

Ma c’è un secondo vantaggio quando si parla di scraping. I link interni vi faranno ottenere backlink preziosi dalle persone che stanno rubando i vostri contenuti. I motori di ricerca come Google utilizzano i backlink come segnale di ranking, quindi i backlink aggiuntivi sono positivi per la vostra SEO.

Infine, questi link interni vi permettono di rubare il pubblico dello scraper. I blogger di talento posizionano i link su parole chiave interessanti, invogliando gli utenti a cliccare. Anche i visitatori del sito dello scraper cliccheranno sui link, che li ricondurranno direttamente al vostro sito.

Collegamento automatico di parole chiave con link di affiliazione per guadagnare con gli scrapers

Se sul vostro sito web guadagnate con il marketing di affiliazione, vi consigliamo di attivare il collegamento automatico nei vostri feed RSS. Questo vi aiuterà a massimizzare i vostri guadagni dai lettori che leggono il vostro sito web solo tramite i lettori RSS.

Ancora meglio, vi aiuterà a guadagnare dai siti che rubano i vostri contenuti.

Basta utilizzare un plugin per WordPress come ThirstyAffiliates che sostituisce automaticamente le parole chiave assegnate con i link di affiliazione. Vi mostriamo come nella nostra guida su come collegare automaticamente le parole chiave con i link di affiliazione in WordPress.

Promuovete il vostro sito web nel piè di pagina RSS

È possibile utilizzare il plugin All in One SEO per aggiungere elementi personalizzati al piè di pagina RSS.

Ad esempio, è possibile aggiungere un banner che promuova i propri prodotti, servizi o contenuti.

AIOSEO RSS feed footer save

La cosa migliore è che questi banner appariranno anche sul sito web dello scraper.

Nel nostro caso, aggiungiamo sempre un piccolo disclaimer in fondo ai post nei nostri feed RSS. In questo modo, otteniamo un backlink all’articolo originale dal sito dello scraper.

In questo modo Google e gli altri motori di ricerca sanno che siamo noi l’autorità. Inoltre, fa sapere ai loro utenti che il sito sta rubando i nostri contenuti.

Per ulteriori suggerimenti, consultate la nostra guida su come controllare il piè di pagina del feed RSS in WordPress.

Speriamo che questo tutorial vi abbia aiutato a capire come prevenire lo scraping dei contenuti del blog in WordPress. Potreste anche voler consultare la nostra guida definitiva alla sicurezza di WordPress o la nostra selezione di esperti delle migliori soluzioni di analisi per WordPress.

Se questo articolo vi è piaciuto, iscrivetevi al nostro canale YouTube per le esercitazioni video su WordPress. Potete trovarci anche su Twitter e Facebook.

Divulgazione: I nostri contenuti sono sostenuti dai lettori. Ciò significa che se cliccate su alcuni dei nostri link, potremmo guadagnare una commissione. Vedi come WPBeginner è finanziato , perché è importante e come puoi sostenerci. Ecco il nostro processo editoriale .

Avatar

Editorial Staff at WPBeginner is a team of WordPress experts led by Syed Balkhi with over 16 years of experience in WordPress, Web Hosting, eCommerce, SEO, and Marketing. Started in 2009, WPBeginner is now the largest free WordPress resource site in the industry and is often referred to as the Wikipedia for WordPress.

Il kit di strumenti WordPress definitivo

Ottenete l'accesso gratuito al nostro kit di strumenti - una raccolta di prodotti e risorse relative a WordPress che ogni professionista dovrebbe avere!

Reader Interactions

90 commentiLascia una risposta

  1. Syed Balkhi says

    Hey WPBeginner readers,
    Did you know you can win exciting prizes by commenting on WPBeginner?
    Every month, our top blog commenters will win HUGE rewards, including premium WordPress plugin licenses and cash prizes.
    You can get more details about the contest from here.
    Start sharing your thoughts below to stand a chance to win!

  2. Moinuddin Waheed says

    I have many friends who used to talk to me about using RSS feed and make content on their website this way. I was not aware exactly how it worked and what benefits they incurred by doing that.
    Scraping others content and showing as if they are themselves have created is an offense but in unethical world who cares. Thanks for making this guide by following which we can prevent our content from scraping and atleast can turn it to our advantage.

  3. Jiří Vaněk says

    Thank you for the article. I have a blog with over 1200 articles, and I need to start addressing that as well. Thanks for the valuable advice.

  4. Toheeb Temitope says

    Thanks for the post.
    But can I even remove the or disable RSS feed totally or is there any special benefit in it.
    Then if I want to disable RSS feed totally, how will I do it.
    Thanks.

  5. Nergis says

    We hear so much about getting site content by doing content curation. Is content scrapping the same as content curation? If not what’s the difference between the two?

    • WPBeginner Support says

      Content scraping is taking content from other sites to place on your site without permission, content curation is normally linking to other content within content you have created

      Admin

  6. Kingsley Felix says

    I am facing these issues, i had 20+ for one of our brands, then we moved elsewhere and they are back again.

  7. slevin smith says

    I found a realy bad content scaper from by blog, not only they steal my content, used the same name for they spam blog only separatedwith a – and all description, tag, basicly trying to be me, is used links in rssfeed with my blog, youtube channel, facebook, twitter, pinterest & google plus, which shows up on there spam blog, also found that png images shows up on the front page but jpeg dose not, but that maybe just on blogger.

  8. astrid maria boshuisen says

    I absolutely love the interlinking-idea. Will have to look at the RSS suggestion, since I forgot how that works exactly, having focussed on writing Kindle e-books for a while (talk about content scraping – zero protection there!.. hence my return to website writing) but I feel I have really got a place to start with protecting my content! Thanks!

  9. Danni Phillips says

    WOW! So much to take into consideration when starting a blog. My blog is only 2 weeks old. I have used mainly WP Beginner to set up my blog. So much good info set out in a way a newbie can follow.

    I don’t know if this works for content scraping but I have installed a plugin called Copyright Proof. It disables right click so that people can not copy and paste your content.

    I decided to use this plugin as it was a recommended plugin for author sites.

  10. Dave Coldwell says

    Another great article, I work as a freelance journalist so I sell a lot of articles and it’s up to the people who buy it to decide on their policies.
    But I also have a couple of blogs and affiliate websites so I think I might need to take a look at what’s happening with my content.

  11. Absynth says

    Does not giving credit where it’s due count as “content scraping”?

    Because Jeff Starr wrote this same post at Perishable Press over 5 years ago:

    Check the structure and terminology of your article and compare it to the original.

    Just sayin.

  12. Sieu says

    i has just develop a theme for blogger and that theme need a full feed to work, i worry about scrapping content, i think if many scrapper use my content on their blogger site, which have the same content with my site, backlink point to mysite, my blog will be spam in Google ‘s eye and will be deleted.

  13. Lori says

    Thanks for this amazing article with useful tips! I actually just got a “Thin Content” penalty from Google. I asked an SEO expert for help, they told me to stop scraping content. They sent me a link of an article I wrote yesterday and thought I had stolen it from another website. The crappy thing is, they were stealing from me, not just that article, but probably a couple thousand articles! They are still in Google search, and I am not. I am being the one penalized! Turns out there are at least three websites scraping my content, not even sure what to do.

  14. Raviraj says

    Awesome article.

    I sort of agree with most of the points you have discussed. Actually few of the points are pretty awesome.

    But if your sole business is based on content in your website, shouldn’t we be more careful about scrapers?

    I don’t think content theft would ever be good to the owner of the content.

    I guess we all should think of opting some preventive measure rather than reactive measure. You can consider using ShieldSquare, a content protection solution to stop content scraping permanently.

  15. Andre says

    I know this is an old article, but the one source that is NOTORIOUS for allowing content scaping is WordPress with their “Press This” feature. They are basically encouraging this.

  16. Sara says

    I think I may have finally found the answer to my problem. I have been thinking someone has been stealing my stories and making them into “new” stories. I thought either someone is out to get me or I am losing my mind. I was almost losing my mind over thinking like this. Paranoid. Concerned someone was listening to my private phone calls. When really, all the information has come directly from my blog! This article may have saved my life. Literally. I am not even joking because I have been so afraid that I was going crazy and very selectively trying to talk about it with friends, to get feedback or support and being looked at like I am nuts and need to go to the psych ward for a while. This article makes what has been happening to me, make total sense. Thank you! I am so overwhelmed with relief.

  17. John says

    Thanks for some tips but a good chunk of this article is not very helpful. Most scrappers are not blind scrappers, the content is generally sucked, looked at by a human eye and then published. Which means that even by taking a minute to look at an article the spam kid is able to publish hundred of copied article a day. Backlinks problem is very easy to circumvent for content scrapper as the feed importers have pre-process options and they generally set it to delink the body. Also I do not see how turning rss into summary may help at all, the feed importers only use the rss to grab the new content link and from there they follow the skeleton of your html, which you have nicely set with proper image, title, link etc tags for the convenience of Google and very easily extract the content.

    Obviously blocking the IP is a very good solution. DMCAs are generally a waste of time; they take time to formulate and stupid hosts take time to respond (since spammers choose these host specifically because they’re lax on spam-like activity). Of all, Google is the most frustrating; no matter how many reports you file with them they never take action on any of the stolen content on which they’re showing ads and still rank the crap-spam site well on the search results despite it being easy for their systems to detect copies

    • Evie says

      John, I couldn’t agree with you more. Google got mad at me stating that I was the person stealing my own content. This person stole my content and put it on blogger. The nerve. There needs to be a solution for this. At this point, I just block!

  18. Philipp D says

    Hi there,
    I just stumbled upon your article while looking for answers to some of my concerns.
    I, together with some friends, launched a website about DIY in Italy, few months ago, which is working unexpectedly well, rankings are high, lots of traffic, etc. Still, PR is yet 0. Our content has a Creative Commons 4.0 license, because we realyl believe it’s a good way to share contents. HOWEVER:
    Some time ago we noticed a PR4 site with lots of traffic copying our top articles, linking back to our homepage (which is not what you’re supposed to do with a CC license, but it’s still ok). The problems are these:
    1. there’s a whole lot of smaller sites scraping their (our) content and linking back to them instead of our site
    2. the PR4 site and some of the smaller sites somehow rank better than our site
    3. there’s strong suggestions that a Google penalty to OUR content has taken place, as it has lower PR than most of the other pages (which have been online for a long time).

    We’re in contact with the PR4 site and it’s ok for us if they use our content, as long as they link back to the original article (that’s the whole point of the CC license), BUT we’re trying to find a solution to avoid getting Google penalties: would rel canonical do the job? What is your opinion? Whould we change our license and be more aggressive towards content copying?
    Thank you!

    • WPBeginner Support says

      Philipp, If you have not already done so, then you should create a webmaster tools account for your site and submit your sitemap. It helps you figure out if there is a problem with your site, how your site is doing on search, and you can use lots of other tools. It also helps Google better understand where some content first appeared.

      We don’t think changing the license will stop content scrappers from copying your content.

      Admin

      • Philipp says

        hi! Yes, we set up a webmaster tools account, linked the site to our google+ page, and most of the authors to their google+ profiles using publisher and author tags. authorship seems to be working fine in search snippets, but so far it doesn’t seem to make much difference in case of scraped content. Higher PR pages scraping our content are still on top…

  19. Garratt says

    One of the best ways not to be effected by this is to ping effectively. Pinging, and manually submitting pages to Google and Bing gets spiders on your site FAST. They index the pages ASAP, then when they find duplicate content on other sites consider you as the authority.

    I do however have the sneaky suspicion this might have to do with PageRank though… But Matt Cutts (webspam team @ Google) has advocated using pinger’s on this very topic. I’m just not sure how much I can trust what he says though.

    To add more services, go to Settings -> Writing Settings -> Update Services -> Open the “Update services” link in a new tab and copy all the update services. Back in WordPress paste them in the ping list and click save.

    Open account in Bing Webmaster tools for manual URL submission for fast indexing.

  20. Chris Backe says

    I recently discovered a guy that can taking an RSS feed from my blog – bear in mind that my blog is a summary feed with Yoast’s ‘This post was found first on’ line. I sent the guy a thank-you message, basically telling him that he’s giving me backlinks, AND telling Google he’s copying my website (since they can look at the timestamps to see which was published first).

    Checked out 2 days later, and all my stuff was mysteriously gone…

    • Editorial Staff says

      You can definitely use that plugin. It blocks right clicks, keyboard shortcuts for copying, ip blacklist etc. Those all prevent manual scraping however most content scrapers use automatic tools. So none of those would be super helpful.

      Admin

    • Ian says

      Thanks for your reply – the pro version states it protects you from bot attacks so I assume that means scrapper bots? the price puts me off installing it on all my sites, but I may use it on one just to see how well it works

  21. Mark Conger says

    This is one of, if not the best, “beginner” article I’ve ever come across on the web.

    After reading it I feel like I just had a meeting with a security consultant.

    I’m applying these techniques right frickin now!

    Thanks. I’m now a follower of this site.

  22. Neil Ferree says

    Its only happened to me a few times. Some blogger from outside the USA has taken my post word-for-word and posted to their site as if it were their own. Since it was just a single post with my YT video embedded, I didn’t sweat the details too much, since my channel CTR saw a nice spike it visits anyway.

  23. Edward B. Rockower, Ph.D. says

    Just want to say thanks, thanks, and thanks!

    I just today discovered your website, only read 3 articles so far (including this one)… but I’m extremely impressed.

    I’ve only been blogging now for 5 weeks, but finding it addictive, especially seeing the growing traffic and user engagement as a result of my efforts. Seeing 100 visitors to my blog site in one day, and being able to see who’s referring them, motivates me to learn all I can to increase the social media marketing and interactions with new visitors.

    Best regards,
    @earthlingEd

  24. Debbie Gilbert says

    I love your Website and was floored to read about content scraping! Is there and way to create a watermark somehow which is not distracting to your readers but to the scraper’s site is dead obvious?

  25. Usman says

    Is it legal to post the complete article from another website and writing source website name at bottom of article?

  26. Abdul Karim says

    Is there any way / plugin

    someone is copy my fashion blog picture and post it at their forum

    but when i click on image at that forum . its open in new window

    i want any plugin or script that if he copy my images when someone click on that images, then that person redirect to my blog post related to that images ?

    any plugin yet ? link with post images ?

  27. Anton says

    If someone takes an article written in English and translate it, using their heads and not google translate, into some other language, lets say because the majority of the people in the country of that other language doesn’t understand English. Would you point them out as scrapers anyway? Or what is your opinion on that?
    For me personally I don’t find it extremely problematic, of course I believe the “author” should link bank to the original article while clarifying that his article is translated.

  28. Greg says

    This is a tremendous article. After reading it I hope you do not see me as a content scraper. I have used excepts from you (curated), I always have the ‘Read the Full Article” and have your page link there and also many of my posts are tweeted and I include your twitter account in there. If you do not want this please let me know and I will gladly remove it. I am very appreciative of your work and want to share it with my visitors. it is not intended to steal your visitors but to be able to give good value to mine and send them on to you for more.

    • Editorial Staff says

      Greg, as long as you only display an excerpt and send the user over to our site to read the full article, then it is not scraping. As you said, it is curation. Tons of popular sites do that (i.e reddit, digg, etc).

      Admin

  29. ryan says

    My site has a lot of original security articles and a couple have been scraped. The site that scraped me was in yahoo! News with my article and had people commenting on it. I dealt with the issue by commenting and saying I was the original author and replied to a few comments. I had internal links, that’s how I found out so quickly. A trick I am going to write about is getting people who come from a scrapers site and have a banner or image appear telling them what happened. The never ending request suggestion sounds illegal under the computer fraud and abuse act. I am not a lawyer. I just write about security, so I have to know the security laws for computers.

    I Do not like it that your form didn’t take my companies email as a valid email.

  30. Ali Rashid says

    nice and informative writeup i like your approach of taking advantage of the scrappers however blocking an ip may not always work; a serious scrapper would often use a list of anonymous or free proxies in that case blacklisting one ip might not be an effective solution as the scrapper would change it often. One solution is to write a small script that will detect any abnormal traffic from a given ip, say more than 20 hits/sec and challenge it with a captcha if no reply, put the ip in a temp blacklist for about 30 mins. you can hardened it with another javascript that detects mouse, touch or keyboard movement after few hits, if no keyboard, mouse, or touch is detected you can again put the scrapper in the temp blacklist, worked like a charm for us.

  31. Arihant says

    Your solutions are good enough for content scrapers.
    But what if people are manually coping and pasting content into their Facebook pages.
    We have implemented tynt but they remove the link back to original article, any ideas on how you can handle this kind of situation.

      • Garratt says

        Actually there’s a plugin created by IMWealth Builders, probably the only one of their plugins I like, the rest are pretty trashy and involve scraping Ecommerce sites (CB,Azon,CJ etc) for affiliate commisions.

        It’s called “Covert Copy Traffic” is actually allows you to set any text pre or post a set number of words. So say I set it to post “This content was taken from xxxxxxx.com” after 18 words. Then anytime someone copied/paste more than 18 words from the website it would add that text at the bottom, 17 words or less it would do nothing.

        These were just example settings. Pretty useful plugin, works a charm. I’ve tried just about every way I could think of to bypass the text insertion but it seems to be impossible. Plugin is to stronk.

        • Garratt says

          Yeah, that’s right. You can just use that script to say “Content came from yourwebsite.com” rather than “Read More”.

        • Jennae Barker says

          Is this true that their amazon etc programs are scrapers – if that is the case – I have made whopper of mistake on a purchase from them – luckily, I have not used it yet.

        • Garratt says

          Yeah Jennae, it’s legal in terms of Amazon allow you to copy content from their pages. It helps there sales, affiliates are the reason Amazon is Amazon.

          However Google and other search engines (that matter) just consider it a “thin affiliate site” as in no original content. Therefore they don’t rank unless there’s a certain percentage of original content on the site as well.

          A scraper, is nothing more than a spider/crawler generally it runs in socket mode, however some run in browser.

          Just because it’s labeled as a scraper doesn’t make it bad per say, I use scrapers and spiders regularly to check my site for unnatural links, I check others for competition analysis, and keyword research and a variety of other tasks that do not harm anyone, but benefit me.

          However I don’t like or condone anyone scraping for the purpose of copyright infringement. Which is what this discussion is really about.

          Google uses the spider “Google Bot” to index the web along with 100’s of other search engines, there’s thousands, hundreds of thousands of spiders crawling the web for a variety of purposes. Google also scrapes websites to “cache” them. As do a lot of important services we need such as the historical web archives.

  32. Troy says

    I’m about to begin aggressively searching for sites that are copying my content and have the content removed. I no it is impacting how my site ranks so I have to do something about it. Any idea how much has to be copied before you can deliver DMCA notices? Is a paragraph in an article enough to legally be able to call it plagiarized?

  33. Dallas says

    You fail to mention that any self respecting autoblogger will strip out links and insert their own affiliate links rather than using your content as it comes, so your approach to getting links from them will usually fail.

  34. VeryCreative says

    I think that the best idea is to include affiliate links.
    After the last Pinguin update, my website was penalized. I started to analyze it and I’ve discovered that many other sites copied my content. I don’t know why, but those websites rank better than me in search engines, using my content.

    • Editorial Staff says

      Not just affiliate links. Include as many internal links. Because if those sites are linking back to your other pages, then Google will KNOW that you are the authority site.

      Admin

      • Bayer says

        Hi wpbeginner.com Team. I really appreciate this article, but have one question in regards to having internal links in your pages/posts.

        I suppose you mean ‘absolute’ links?? Otherwise this may not work in your favour, once the content has been scraped… Well, so far I have always been going along with relative links, as you do I suppose. Which is the best method? Cheers!

  35. Gautam Doddamani says

    first of all your tutorial is just fantastic..hats off! just one doubt how to know if a site is a scraper site? i used your method and found out that Google Webmaster Tools is reporting that there are 262 links to my site and there are many sites which dont know of…thus i am in a confusion….how to check if a site is a scraper site or an authoritative site?? is der a tool available for that? thanks in advance!

      • Gautam Doddamani says

        yes that is true…but what if i dont want to find my article on those scraping sites…i know my article is there as it is being reported by GWT and i just want to block that IP address by inserting those rewritecond rules in the htaccess file…i dont want to waste my time searching those bad sites for my article or requesting them to takedown my article…

  36. Nathan says

    Thank you for this article – and for your site in general!. I like this so much that I had wondered how I would keep track of this resource. And now I see the subscriptions options below. What a way to get a comment!

  37. Yeasin says

    Preventing content scraping is almost impossible. I don’t think content scrapper does hurt me any way. They are just voting me that i have got some high quality contents. Google is smart enough to detect the original publishers. No-one should worry.

  38. mrwindowsx says

    really informative, if you use cloudflare, there is new apps called ScrapeShield, and you can easily protect and track/monitor your site contents free.

    • Gautam Doddamani says

      wow dats great man…do you use cloudflare? i just wanted your review because i have never used that cdn service..i know it is free and all but i think my site load time is already gr8 that i didnt require it…now that scrapeshield is there i think i will definitely check it out…what all other apps will we get if we start using cloudflare?? thanks

      • Matt says

        Hello,
        IMO @cloudflare really is awesome. I have two sites on it (both mine and my wife’s blog) and it really is incredibly fast, but that’s not to mention all of the security, traffic analysis, app support (automatic app installs) that they provide.

        I know that all hosting setups are different, but I have both of our sites running on the Media Temple (gs)Grid Service. I can honestly say that our sites run faster now than they did when I was using W3 Total Cache and Amazon S3 as my CDN. Actually, I still use W3TC on my site to minimize & cache my content, but I use CloudFlare for CDN, DNS, and security services.

        Highly recommend… Actually, I would really appreciate it if someone at WPBeginner would give us their in-depth, experienced opinion of the CloudFlare services. To me, they have been awesome!

  39. shivabeach says

    You can also get a plugin whose name eludes me at this time that does the google search for you. It also adds a code into your RSS that the app searches for

  40. MuhammadWaqas says

    Great post, I know there are many autoblogs fetching my content. Although after penguin update my site is getting 3 times more traffic from google than before. But after reading about many disasters or original content generators I’m worried about future penalties by google. 
     
    Its my experience that usually google respect high PR sites with good authority backlinks. but site is just one year old and PR is less than 5. 
     
    I try to contact scrappers but most of them don’t have contact forms. so I think I’ll try that htaccess method to blog the scrappers ip addresses. But only the other hand some of them can use feedburner. 

    • Garratt says

      Personally I don’t bother with RSS as most users don’t use it. Instead supply a newsletter feed. It does the same trick + you get emails to market to (if done correctly). Majority of people are more likely to subscribe to a blog rather than bookmark a RSS in my experience. So it’s better to turn off RSS. You can do this using WordPress SEO by Yoast, and various other plugins.

      Then if you also implement above mentioned strategies, you should be good. Remove all unnecessary headers RSD WLM etc.

      There will be a couple still able to scrape effectively but those tricks will diminish a great deal of them.

Lascia una risposta

Grazie per aver scelto di lasciare un commento. Tenga presente che tutti i commenti sono moderati in base alle nostre politica dei commenti e il suo indirizzo e-mail NON sarà pubblicato. Si prega di NON utilizzare parole chiave nel campo del nome. Avremo una conversazione personale e significativa.