Trusted WordPress tutorials, when you need them most.
Beginner’s Guide to WordPress
Copa WPB
25 Million+
Websites using our plugins
16+
Years of WordPress experience
3000+
WordPress tutorials
by experts

Guía para principiantes sobre cómo evitar el scraping de contenidos de blog en WordPress

Nota editorial: Ganamos una comisión de los enlaces de socios en WPBeginner. Las comisiones no afectan a las opiniones o evaluaciones de nuestros editores. Más información sobre Proceso editorial.

¿Está buscando una manera de evitar que los spammers y estafadores roben las entradas de su blog de WordPress utilizando raspadores de contenido?

Como propietario de un sitio web, es muy frustrante ver que alguien te roba contenido de alta calidad sin permiso, lo monetiza, te supera en Google y te roba audiencia.

En este artículo, trataremos qué es el scraping de contenidos de blog, cómo puede reducir y prevenir el scraping de contenidos, e incluso cómo aprovecharse de los scrapers de contenidos en su propio beneficio.

Beginner's Guide to Preventing Blog Content Scraping in WordPress

¿Qué es el scraping de contenidos de blog en WordPress?

El scraping de contenidos de blog se produce cuando se toman contenidos de numerosas fuentes y se vuelven a publicar en otro sitio. Normalmente, esto se hace automáticamente a través del feed RSS de su blog.

Por desgracia, es muy fácil y muy común que te roben el contenido de tu blog de WordPress de esta manera. Si te ha ocurrido, entenderás lo estresante y frustrante que puede llegar a ser.

A veces, su contenido será simplemente copiado y pegado directamente en otro sitio web, incluyendo su formato, imágenes, vídeos y más.

Otras veces, su contenido se volverá a publicar con atribución y un enlace a su sitio web, pero sin su permiso. Aunque esto puede ayudar a su SEO, es posible que desee mantener su contenido original alojado en su sitio solo.

¿Por qué roban contenido los raspadores de contenidos?

Algunos de nuestros usuarios nos han preguntado por qué los “scrapers” roban contenidos. Normalmente, la principal motivación del robo de contenidos es lucrarse con tu duro trabajo:

  • Comisiones de afiliación: Los comerciantes afiliados deshonestos pueden utilizar su contenido para atraer tráfico a su sitio a través de motores de búsqueda para promover sus productos de nicho.
  • Generación de clientes potenciales: Abogados y agentes inmobiliarios pueden pagar a alguien para añadir contenido y ganar autoridad en su comunidad y no darse cuenta de que se está raspando de otras fuentes.
  • Ingresos por publicidad: Los propietarios de blogs pueden extraer contenido para crear un centro de conocimiento en un nicho determinado “por el bien de la comunidad” y luego llenar el sitio de anuncios.

¿Es posible evitar por completo el scraping de contenidos?

En este artículo, le mostraremos algunas medidas que puede tomar para reducir y prevenir el scraping de contenidos. Pero, por desgracia, no hay forma de detener por completo a un ladrón decidido.

Por eso terminamos este artículo con una sección sobre cómo puedes aprovecharte de los ladrones de contenido. Aunque no siempre puedes detener a un ladrón, es posible que puedas ganar algo de tráfico e ingresos a través del contenido que te han robado.

¿Qué debe hacer si descubre que alguien ha copiado su contenido?

Dado que no es posible detener por completo a los “scrapers”, es posible que un día descubras que alguien está utilizando contenido que ha robado de tu blog. Puede que te preguntes qué hacer cuando eso ocurra.

Estos son algunos de los métodos que se utilizan para hacer frente a los “scrapers” de contenidos:

  • No hacer nada: se puede perder mucho tiempo luchando contra los scrapers, por lo que algunos bloggers populares deciden no hacer nada. Google ya considera que los sitios conocidos son autoridades, pero no ocurre lo mismo con los sitios más pequeños. Así que, en nuestra opinión, este enfoque no siempre es el mejor.
  • Retirada: Puedes ponerte en contacto con el scraper y pedirle que retire el contenido. Si se niega, envía un aviso de retirada. Puedes aprender a hacerlo en nuestra guía sobre cómo encontrar y eliminar fácilmente contenido robado en WordPress.
  • Tome ventaja: Mientras trabajamos activamente para que el contenido de WPBeginner sea retirado, también utilizamos algunas técnicas para obtener tráfico y ganar dinero de los scrapers. Puedes aprender cómo en la sección ‘Aprovecha los raspadores de contenido’ más abajo.

Dicho esto, veamos cómo evitar el scraping de blogs en WordPress. Dado que se trata de una guía exhaustiva, hemos incluido una tabla de contenidos para facilitar la navegación:

Las leyes de marcas y copyright protegen sus derechos de propiedad intelectual, su marca y su negocio frente a muchos problemas legales. Esto incluye el plagio y el uso ilegal de su material protegido por copyright o el nombre y logotipo de su marca.

Debe vaciar claramente un aviso de copyright en su sitio. Aunque el contenido de su sitio web está cubierto automáticamente por las leyes de copyright, mostrar un aviso les hará saber que su contenido está protegido por copyright y que no pueden utilizar sus propiedades protegidas para hacer negocio.

Display a Copyright Notice on Your Website

Por ejemplo, puede añadir un aviso de copyright con una fecha dinámica a su pie de página de WordPress. Así mantendrá actualizado su aviso de copyright.

Esto puede disuadir a algunos usuarios de robarlo. También le ayudará en caso de que tenga que enviar una carta de cese y desistimiento o presentar una denuncia ante la DCMA para retirar el contenido robado.

También puede solicitar el registro de copyright en línea. Este proceso puede ser complicado, pero por suerte existen servicios jurídicos de bajo coste que pueden ayudar a pequeñas empresas y particulares.

Aprenda a hacerlo en nuestra guía sobre marcas registradas y copyright del nombre y logotipo de su blog.

2. Haga que su feed RSS sea más difícil de raspar

Dado que el raspado del contenido de un blog suele hacerse automáticamente a través del feed RSS de su blog, veamos algunos cambios útiles que puede hacer en su feed.

No incluya el contenido completo de la entrada en su feed RSS de WordPress

Puede incluir sólo un resumen de cada entrada en su feed RSS en lugar del contenido completo. Esto incluye un extracto y metadatos de la entrada, como la fecha, el autor y la categoría.

En la comunidad de blogueros existe un debate acerca de si conviene tener feeds RSS completos o resumidos. No vamos a entrar en eso ahora, salvo para decir que una de las ventajas de tener sólo un resumen es que ayuda a prevenir el scraping de contenidos.

Puede cambiar los ajustes yendo a Ajustes ” Lectura en su panel de administrador de WordPress. Debe seleccionar la opción “Extracto” y, a continuación, hacer clic en el botón “Guardar cambios”.

RSS Feeds Can Contain Full Text or an Excerpt of Each Post

Ahora, el feed RSS solo mostrará un extracto de tu artículo. Si alguien está robando tu contenido a través de tu feed RSS, entonces solo obtendrá el resumen, no la entrada completa.

Si desea retocar el resumen, puede consultar nuestra guía sobre cómo personalizar los extractos de WordPress.

Optimice su feed RSS para evitar el scraping

Hay otras formas de optimizar tu feed RSS de WordPress para proteger tu contenido, conseguir más backlinks, aumentar tu tráfico web y mucho más. Una de las mejores formas es retrasar la aparición de entradas en el feed RSS.

La ventaja es que cuando retrasa la aparición de entradas en su feed RSS, da tiempo a los motores de búsqueda a rastrear e indexar su contenido antes de que aparezca en otros sitios, como los de los scraper. Los motores de búsqueda verán entonces su sitio como la autoridad.

La forma más segura y fácil de hacerlo es usando WPCode porque tiene una receta que añade automáticamente el código personalizado correcto a WordPress.

Add a snippet using WPCode

Para obtener instrucciones detalladas, consulte nuestra guía sobre cómo retrasar la aparición de entradas en su feed RSS de WordPress.

3. Desactivar Trackbacks, Pingbacks y REST API

En los inicios del mundo de los blogs, los trackbacks y los pingbacks se introdujeron para avisarse mutuamente acerca de los enlaces. Cuando alguien enlaza una entrada de tu blog, su sitio web envía automáticamente un ping al tuyo.

Este pingback aparecerá en la cola de moderación de comentarios de tu blog con un enlazar a su sitio web. Si lo apruebas, recibirán un vínculo de retroceso y una mención de tu sitio.

Esto incentiva a los spammers a rastrear su sitio y enviar trackbacks. Por suerte, puede desactivar los trackbacks y pingbacks para dar a los scrapers una razón menos para robar su contenido.

Disabling Trackbacks and Pingbacks in WordPress

Para más información, comprueba nuestra guía sobre cómo desactivar los trackbacks en todas las entradas futuras. También puedes aprender a desactivar los trackbacks y pings en entradas existentes de WordPress.

Desactivar la API REST de WordPress

Además de los trackbacks y pingbacks, también recomendamos desactivar la API REST de WordPress, ya que puede facilitar a los spammers el scrapeo de su contenido.

Disponemos de una guía detallada sobre cómo desactivar la API REST de WordPress.

Todo lo que tienes que hacer es instalar y activar el plugin gratuito WPCode y utilizar su fragmento de código para desactivar la API REST.

4. Bloquee el acceso del Scraper a su sitio web WordPress

Una forma de evitar que los “scrapers” roben tu contenido es impedirles el acceso a tu sitio web. Puedes hacerlo manualmente bloqueando su dirección IP, pero a la mayoría de los usuarios les resultará más fácil utilizar un plugin de seguridad como un cortafuegos de aplicaciones web.

Bloquear el scraper con un plugin de seguridad (recomendado)

Bloquear scrapers manualmente es complicado y requiere mucho trabajo. Sobre todo porque muchos intentos de piratería y ataques se realizan utilizando una amplia gama de direcciones IP aleatorias de todo el mundo. Es casi imposible estar al tanto de todas esas direcciones IP aleatorias.

Por eso necesita un cortafuegos de aplicaciones web (WAF) como Wordfence o Securi. Estos actúan como un escudo entre su sitio web y todo el tráfico entrante supervisando el tráfico de su sitio web y bloqueando las amenazas de seguridad comunes antes de que lleguen a su sitio WordPress.

Para el sitio web de WPBeginner, utilizamos Sucuri. Es un servicio de seguridad de sitios web que protege tu sitio web contra este tipo de ataques mediante un cortafuegos de aplicaciones web.

Básicamente, todo el tráfico de su sitio web pasa por los servidores del servicio de seguridad, donde se examina en busca de actividades sospechosas. Bloquean automáticamente las direcciones IP sospechosas para que no lleguen a su sitio web. Vea cómo Sucuri nos ayudó a bloquear 450.000 ataques a WordPress en 3 meses.

Bloquear o redirigir manualmente la dirección IP del Scraper

Los usuarios avanzados también pueden bloquear manualmente la dirección IP de un “scraper”. Esto requiere más trabajo, pero una vez que se conoce la dirección del scraper, se puede actuar específicamente sobre ella. El desarrollador web Jeff Star sugiere este enfoque cuando escribe acerca de cómo maneja los raspadores de contenido.

Nota: Añadir código a los archivos de un sitio web puede ser peligroso. Incluso un pequeño error puede causar errores importantes en su sitio. Por eso solo recomendamos este método para usuarios avanzados.

Puedes encontrar la dirección IP del “scraper” visitando “Raw Access Logs” en el panel de control cPanel de tu cuenta de alojamiento web. Tienes que buscar direcciones IP con un número inusualmente alto de solicitudes y mantener un registro de ellas, por ejemplo, copiándolas en un archivo de texto separado.

Blocking the Scraper's IP Address

Consejo: asegúrate de no bloquear el acceso a tu sitio web a usuarios legítimos o motores de búsqueda. Copie una dirección IP sospechosa y utilice herramientas de búsqueda de IP en línea para averiguar más acerca de ella.

Una vez que esté seguro de que la dirección IP pertenece a un scraper, puede bloquearla utilizando la herramienta “Bloqueador de IP” de cPanel o añadiendo un código como éste en su archivo raíz .htaccess:

Deny from 123.456.789

Asegúrese de sustituir la dirección IP del código por la que desea bloquear. Puedes bloquear varias direcciones IP introduciéndolas en la misma línea, separadas por espacios.

Para obtener instrucciones detalladas, consulte nuestra guía sobre cómo bloquear direcciones IP en WordPress.

En lugar de limitarse a bloquearlos, Jeff sugiere enviarles feeds RSS ficticios. Podrías crear feeds llenos de Lorem Ipsum e imágenes molestas o incluso enviarlos directamente a su propio sitio web, provocando un bucle infinito y colapsando su servidor.

Para redirigirlos a un feed ficticio, deberá añadir un código como el siguiente a su archivo .htaccess:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

5. Evitar el robo de imágenes en WordPress

No sólo debe proteger su contenido escrito. También debes evitar el robo de imágenes en WordPress.

Al igual que ocurre con el texto, no hay forma de evitar por completo que la gente robe tus imágenes, pero hay muchas maneras de desalentar el robo de imágenes en un sitio web WordPress.

Por ejemplo, puede desactivar el hotlinking de sus imágenes en WordPress. Esto significará que si alguien scrapea tu contenido HTML, sus imágenes no se cargarán en su sitio.

También reducirá la carga del servidor y el uso de ancho de banda, aumentando la velocidad y el rendimiento de WordPress.

Alternativamente, puedes añadir una marca de agua a tus imágenes que te dé crédito. Así quedará vaciado de contenido.

Puede aprender estas dos técnicas, así como otras formas de proteger sus imágenes, en nuestra guía sobre formas de evitar el robo de imágenes en WordPress.

6. Desaconseje la copia manual de sus contenidos

Aunque la mayoría de los “scrapers” utilizan herramientas automáticas, algunos ladrones de contenidos pueden intentar copiar manualmente todo o parte de su contenido.

Una forma de hacerlo más difícil es impedir que copien y peguen tu texto. Para ello, haz que les resulte más difícil seleccionar el texto de tu sitio web.

Para saber cómo impedir la copia manual de su contenido, consulte nuestra guía práctica sobre cómo impedir la selección de texto y copiar/pegar en WordPress.

Sin embargo, esto no protegerá completamente su contenido. Recuerde que los usuarios expertos pueden ver el código fuente o utilizar la herramienta de inspección para copiar lo que quieran. Además, este método no funcionará con todos los navegadores / exploradores.

Además, tenga en cuenta que no todo el que copie su texto será un ladrón de contenidos. Por ejemplo, puede que algunos quieran copiar el título para compartir tu entrada en los medios sociales.

Por eso le recomendamos que solo utilice este método si cree que es realmente necesario para su sitio.

7. Aproveche los rascadores de contenido

A medida que tu blog crece, es casi imposible detener o hacer un seguimiento de todos los scrapers de contenido. Seguimos enviando quejas DMCA. Sin embargo, sabemos que hay toneladas de otros sitios que están robando nuestro contenido que simplemente no podemos seguir.

En lugar de eso, nuestro enfoque consiste en intentar aprovecharnos de los scraper de contenidos. No está tan mal cuando ves que estás ganando dinero con tu contenido robado o recibiendo mucho tráfico desde el sitio web de un scraper.

Haz de los enlaces internos un hábito para ganar tráfico y backlinks de los scrapers

En nuestra guía definitiva sobre SEO, le recomendamos que convierta el enlazado interno en un hábito. Al enlazar otros contenidos en las entradas de su blog, puede aumentar el número de páginas vistas y reducir la tasa de rebote de su propio sitio.

Pero hay una segunda ventaja cuando se trata de scraping. Los enlaces internos le proporcionarán valiosos backlinks de las personas que están robando su contenido. Los motores de búsqueda como Google utilizan los backlinks como una señal de clasificación, por lo que los backlinks adicionales son buenos para su SEO.

Por último, estos enlaces internos te permiten robar la audiencia del scraper. Los blogueros con talento colocan enlaces en palabras clave interesantes, tentando a los usuarios a hacer clic. Los visitantes del sitio web del scraper también enlazarán, lo que les llevará directamente a su propio sitio web.

Auto Enlazar Palabras Clave con Enlaces de Afiliados para Ganar Dinero con Scrapers

Si gana dinero en su sitio web a través del marketing de afiliación, le recomendamos que active el enlazado automático en sus feeds RSS. Esto le ayudará a maximizar sus ganancias de los lectores que solo leen su sitio web a través de lectores RSS.

Mejor aún, le ayudará a ganar dinero de los sitios que están robando su contenido.

Simplemente utilice un plugin para WordPress como ThirstyAffiliates que sustituirá automáticamente las palabras clave asignadas por enlaces de afiliados. Le mostramos cómo en nuestra guía sobre cómo enlazar automáticamente palabras clave con enlaces de afiliados en WordPress.

Promocione su sitio web en el pie de página de su RSS

Puede utilizar el plugin All in One SEO para añadir elementos personalizados a su pie de página RSS.

Por ejemplo, puede añadir un banner que promocione sus propios productos, servicios o contenidos.

AIOSEO RSS feed footer save

Lo mejor es que esos banners aparecerán también en el sitio web del scraper.

En nuestro caso, siempre añadimos un pequeño descargo de responsabilidad al final de las entradas de nuestros feeds RSS. De este modo, obtenemos un enlace al artículo original desde el sitio del scraper.

Esto permite a Google y a otros motores de búsqueda saber que somos la autoridad. También permite a sus usuarios saber que el sitio está robando nuestro contenido.

Para más consejos, marque / compruebe nuestra guía sobre cómo controlar el pie de página de su feed RSS en WordPress.

Esperamos que este tutorial te haya ayudado a aprender cómo evitar el scraping de contenidos de blog en WordPress. También puedes consultar nuestra guía definitiva sobre seguridad en WordPress o nuestra selección de las mejores soluciones analíticas para WordPress.

If you liked this article, then please subscribe to our YouTube Channel for WordPress video tutorials. You can also find us on Twitter and Facebook.

Descargo: Nuestro contenido está apoyado por los lectores. Esto significa que si hace clic en algunos de nuestros enlaces, podemos ganar una comisión. Vea cómo se financia WPBeginner , por qué es importante, y cómo puede apoyarnos. Aquí está nuestro proceso editorial .

Avatar

Editorial Staff at WPBeginner is a team of WordPress experts led by Syed Balkhi with over 16 years of experience in WordPress, Web Hosting, eCommerce, SEO, and Marketing. Started in 2009, WPBeginner is now the largest free WordPress resource site in the industry and is often referred to as the Wikipedia for WordPress.

El último kit de herramientas de WordPress

Obtenga acceso GRATUITO a nuestro kit de herramientas - una colección de productos y recursos relacionados con WordPress que todo profesional debería tener!

Reader Interactions

90 comentariosDeja una respuesta

  1. Syed Balkhi says

    Hey WPBeginner readers,
    Did you know you can win exciting prizes by commenting on WPBeginner?
    Every month, our top blog commenters will win HUGE rewards, including premium WordPress plugin licenses and cash prizes.
    You can get more details about the contest from here.
    Start sharing your thoughts below to stand a chance to win!

  2. Moinuddin Waheed says

    I have many friends who used to talk to me about using RSS feed and make content on their website this way. I was not aware exactly how it worked and what benefits they incurred by doing that.
    Scraping others content and showing as if they are themselves have created is an offense but in unethical world who cares. Thanks for making this guide by following which we can prevent our content from scraping and atleast can turn it to our advantage.

  3. Jiří Vaněk says

    Thank you for the article. I have a blog with over 1200 articles, and I need to start addressing that as well. Thanks for the valuable advice.

  4. Toheeb Temitope says

    Thanks for the post.
    But can I even remove the or disable RSS feed totally or is there any special benefit in it.
    Then if I want to disable RSS feed totally, how will I do it.
    Thanks.

  5. Nergis says

    We hear so much about getting site content by doing content curation. Is content scrapping the same as content curation? If not what’s the difference between the two?

    • WPBeginner Support says

      Content scraping is taking content from other sites to place on your site without permission, content curation is normally linking to other content within content you have created

      Administrador

  6. Kingsley Felix says

    I am facing these issues, i had 20+ for one of our brands, then we moved elsewhere and they are back again.

  7. slevin smith says

    I found a realy bad content scaper from by blog, not only they steal my content, used the same name for they spam blog only separatedwith a – and all description, tag, basicly trying to be me, is used links in rssfeed with my blog, youtube channel, facebook, twitter, pinterest & google plus, which shows up on there spam blog, also found that png images shows up on the front page but jpeg dose not, but that maybe just on blogger.

  8. astrid maria boshuisen says

    I absolutely love the interlinking-idea. Will have to look at the RSS suggestion, since I forgot how that works exactly, having focussed on writing Kindle e-books for a while (talk about content scraping – zero protection there!.. hence my return to website writing) but I feel I have really got a place to start with protecting my content! Thanks!

  9. Danni Phillips says

    WOW! So much to take into consideration when starting a blog. My blog is only 2 weeks old. I have used mainly WP Beginner to set up my blog. So much good info set out in a way a newbie can follow.

    I don’t know if this works for content scraping but I have installed a plugin called Copyright Proof. It disables right click so that people can not copy and paste your content.

    I decided to use this plugin as it was a recommended plugin for author sites.

  10. Dave Coldwell says

    Another great article, I work as a freelance journalist so I sell a lot of articles and it’s up to the people who buy it to decide on their policies.
    But I also have a couple of blogs and affiliate websites so I think I might need to take a look at what’s happening with my content.

  11. Absynth says

    Does not giving credit where it’s due count as “content scraping”?

    Because Jeff Starr wrote this same post at Perishable Press over 5 years ago:

    Check the structure and terminology of your article and compare it to the original.

    Just sayin.

  12. Sieu says

    i has just develop a theme for blogger and that theme need a full feed to work, i worry about scrapping content, i think if many scrapper use my content on their blogger site, which have the same content with my site, backlink point to mysite, my blog will be spam in Google ‘s eye and will be deleted.

  13. Lori says

    Thanks for this amazing article with useful tips! I actually just got a “Thin Content” penalty from Google. I asked an SEO expert for help, they told me to stop scraping content. They sent me a link of an article I wrote yesterday and thought I had stolen it from another website. The crappy thing is, they were stealing from me, not just that article, but probably a couple thousand articles! They are still in Google search, and I am not. I am being the one penalized! Turns out there are at least three websites scraping my content, not even sure what to do.

  14. Raviraj says

    Awesome article.

    I sort of agree with most of the points you have discussed. Actually few of the points are pretty awesome.

    But if your sole business is based on content in your website, shouldn’t we be more careful about scrapers?

    I don’t think content theft would ever be good to the owner of the content.

    I guess we all should think of opting some preventive measure rather than reactive measure. You can consider using ShieldSquare, a content protection solution to stop content scraping permanently.

  15. Andre says

    I know this is an old article, but the one source that is NOTORIOUS for allowing content scaping is WordPress with their “Press This” feature. They are basically encouraging this.

  16. Sara says

    I think I may have finally found the answer to my problem. I have been thinking someone has been stealing my stories and making them into “new” stories. I thought either someone is out to get me or I am losing my mind. I was almost losing my mind over thinking like this. Paranoid. Concerned someone was listening to my private phone calls. When really, all the information has come directly from my blog! This article may have saved my life. Literally. I am not even joking because I have been so afraid that I was going crazy and very selectively trying to talk about it with friends, to get feedback or support and being looked at like I am nuts and need to go to the psych ward for a while. This article makes what has been happening to me, make total sense. Thank you! I am so overwhelmed with relief.

  17. John says

    Thanks for some tips but a good chunk of this article is not very helpful. Most scrappers are not blind scrappers, the content is generally sucked, looked at by a human eye and then published. Which means that even by taking a minute to look at an article the spam kid is able to publish hundred of copied article a day. Backlinks problem is very easy to circumvent for content scrapper as the feed importers have pre-process options and they generally set it to delink the body. Also I do not see how turning rss into summary may help at all, the feed importers only use the rss to grab the new content link and from there they follow the skeleton of your html, which you have nicely set with proper image, title, link etc tags for the convenience of Google and very easily extract the content.

    Obviously blocking the IP is a very good solution. DMCAs are generally a waste of time; they take time to formulate and stupid hosts take time to respond (since spammers choose these host specifically because they’re lax on spam-like activity). Of all, Google is the most frustrating; no matter how many reports you file with them they never take action on any of the stolen content on which they’re showing ads and still rank the crap-spam site well on the search results despite it being easy for their systems to detect copies

    • Evie says

      John, I couldn’t agree with you more. Google got mad at me stating that I was the person stealing my own content. This person stole my content and put it on blogger. The nerve. There needs to be a solution for this. At this point, I just block!

  18. Philipp D says

    Hi there,
    I just stumbled upon your article while looking for answers to some of my concerns.
    I, together with some friends, launched a website about DIY in Italy, few months ago, which is working unexpectedly well, rankings are high, lots of traffic, etc. Still, PR is yet 0. Our content has a Creative Commons 4.0 license, because we realyl believe it’s a good way to share contents. HOWEVER:
    Some time ago we noticed a PR4 site with lots of traffic copying our top articles, linking back to our homepage (which is not what you’re supposed to do with a CC license, but it’s still ok). The problems are these:
    1. there’s a whole lot of smaller sites scraping their (our) content and linking back to them instead of our site
    2. the PR4 site and some of the smaller sites somehow rank better than our site
    3. there’s strong suggestions that a Google penalty to OUR content has taken place, as it has lower PR than most of the other pages (which have been online for a long time).

    We’re in contact with the PR4 site and it’s ok for us if they use our content, as long as they link back to the original article (that’s the whole point of the CC license), BUT we’re trying to find a solution to avoid getting Google penalties: would rel canonical do the job? What is your opinion? Whould we change our license and be more aggressive towards content copying?
    Thank you!

    • WPBeginner Support says

      Philipp, If you have not already done so, then you should create a webmaster tools account for your site and submit your sitemap. It helps you figure out if there is a problem with your site, how your site is doing on search, and you can use lots of other tools. It also helps Google better understand where some content first appeared.

      We don’t think changing the license will stop content scrappers from copying your content.

      Administrador

      • Philipp says

        hi! Yes, we set up a webmaster tools account, linked the site to our google+ page, and most of the authors to their google+ profiles using publisher and author tags. authorship seems to be working fine in search snippets, but so far it doesn’t seem to make much difference in case of scraped content. Higher PR pages scraping our content are still on top…

  19. Garratt says

    One of the best ways not to be effected by this is to ping effectively. Pinging, and manually submitting pages to Google and Bing gets spiders on your site FAST. They index the pages ASAP, then when they find duplicate content on other sites consider you as the authority.

    I do however have the sneaky suspicion this might have to do with PageRank though… But Matt Cutts (webspam team @ Google) has advocated using pinger’s on this very topic. I’m just not sure how much I can trust what he says though.

    To add more services, go to Settings -> Writing Settings -> Update Services -> Open the “Update services” link in a new tab and copy all the update services. Back in WordPress paste them in the ping list and click save.

    Open account in Bing Webmaster tools for manual URL submission for fast indexing.

  20. Chris Backe says

    I recently discovered a guy that can taking an RSS feed from my blog – bear in mind that my blog is a summary feed with Yoast’s ‘This post was found first on’ line. I sent the guy a thank-you message, basically telling him that he’s giving me backlinks, AND telling Google he’s copying my website (since they can look at the timestamps to see which was published first).

    Checked out 2 days later, and all my stuff was mysteriously gone…

    • Editorial Staff says

      You can definitely use that plugin. It blocks right clicks, keyboard shortcuts for copying, ip blacklist etc. Those all prevent manual scraping however most content scrapers use automatic tools. So none of those would be super helpful.

      Administrador

    • Ian says

      Thanks for your reply – the pro version states it protects you from bot attacks so I assume that means scrapper bots? the price puts me off installing it on all my sites, but I may use it on one just to see how well it works

  21. Mark Conger says

    This is one of, if not the best, “beginner” article I’ve ever come across on the web.

    After reading it I feel like I just had a meeting with a security consultant.

    I’m applying these techniques right frickin now!

    Thanks. I’m now a follower of this site.

  22. Neil Ferree says

    Its only happened to me a few times. Some blogger from outside the USA has taken my post word-for-word and posted to their site as if it were their own. Since it was just a single post with my YT video embedded, I didn’t sweat the details too much, since my channel CTR saw a nice spike it visits anyway.

  23. Edward B. Rockower, Ph.D. says

    Just want to say thanks, thanks, and thanks!

    I just today discovered your website, only read 3 articles so far (including this one)… but I’m extremely impressed.

    I’ve only been blogging now for 5 weeks, but finding it addictive, especially seeing the growing traffic and user engagement as a result of my efforts. Seeing 100 visitors to my blog site in one day, and being able to see who’s referring them, motivates me to learn all I can to increase the social media marketing and interactions with new visitors.

    Best regards,
    @earthlingEd

  24. Debbie Gilbert says

    I love your Website and was floored to read about content scraping! Is there and way to create a watermark somehow which is not distracting to your readers but to the scraper’s site is dead obvious?

  25. Usman says

    Is it legal to post the complete article from another website and writing source website name at bottom of article?

  26. Abdul Karim says

    Is there any way / plugin

    someone is copy my fashion blog picture and post it at their forum

    but when i click on image at that forum . its open in new window

    i want any plugin or script that if he copy my images when someone click on that images, then that person redirect to my blog post related to that images ?

    any plugin yet ? link with post images ?

  27. Anton says

    If someone takes an article written in English and translate it, using their heads and not google translate, into some other language, lets say because the majority of the people in the country of that other language doesn’t understand English. Would you point them out as scrapers anyway? Or what is your opinion on that?
    For me personally I don’t find it extremely problematic, of course I believe the “author” should link bank to the original article while clarifying that his article is translated.

  28. Greg says

    This is a tremendous article. After reading it I hope you do not see me as a content scraper. I have used excepts from you (curated), I always have the ‘Read the Full Article” and have your page link there and also many of my posts are tweeted and I include your twitter account in there. If you do not want this please let me know and I will gladly remove it. I am very appreciative of your work and want to share it with my visitors. it is not intended to steal your visitors but to be able to give good value to mine and send them on to you for more.

    • Editorial Staff says

      Greg, as long as you only display an excerpt and send the user over to our site to read the full article, then it is not scraping. As you said, it is curation. Tons of popular sites do that (i.e reddit, digg, etc).

      Administrador

  29. ryan says

    My site has a lot of original security articles and a couple have been scraped. The site that scraped me was in yahoo! News with my article and had people commenting on it. I dealt with the issue by commenting and saying I was the original author and replied to a few comments. I had internal links, that’s how I found out so quickly. A trick I am going to write about is getting people who come from a scrapers site and have a banner or image appear telling them what happened. The never ending request suggestion sounds illegal under the computer fraud and abuse act. I am not a lawyer. I just write about security, so I have to know the security laws for computers.

    I Do not like it that your form didn’t take my companies email as a valid email.

  30. Ali Rashid says

    nice and informative writeup i like your approach of taking advantage of the scrappers however blocking an ip may not always work; a serious scrapper would often use a list of anonymous or free proxies in that case blacklisting one ip might not be an effective solution as the scrapper would change it often. One solution is to write a small script that will detect any abnormal traffic from a given ip, say more than 20 hits/sec and challenge it with a captcha if no reply, put the ip in a temp blacklist for about 30 mins. you can hardened it with another javascript that detects mouse, touch or keyboard movement after few hits, if no keyboard, mouse, or touch is detected you can again put the scrapper in the temp blacklist, worked like a charm for us.

  31. Arihant says

    Your solutions are good enough for content scrapers.
    But what if people are manually coping and pasting content into their Facebook pages.
    We have implemented tynt but they remove the link back to original article, any ideas on how you can handle this kind of situation.

      • Garratt says

        Actually there’s a plugin created by IMWealth Builders, probably the only one of their plugins I like, the rest are pretty trashy and involve scraping Ecommerce sites (CB,Azon,CJ etc) for affiliate commisions.

        It’s called “Covert Copy Traffic” is actually allows you to set any text pre or post a set number of words. So say I set it to post “This content was taken from xxxxxxx.com” after 18 words. Then anytime someone copied/paste more than 18 words from the website it would add that text at the bottom, 17 words or less it would do nothing.

        These were just example settings. Pretty useful plugin, works a charm. I’ve tried just about every way I could think of to bypass the text insertion but it seems to be impossible. Plugin is to stronk.

        • Garratt says

          Yeah, that’s right. You can just use that script to say “Content came from yourwebsite.com” rather than “Read More”.

        • Jennae Barker says

          Is this true that their amazon etc programs are scrapers – if that is the case – I have made whopper of mistake on a purchase from them – luckily, I have not used it yet.

        • Garratt says

          Yeah Jennae, it’s legal in terms of Amazon allow you to copy content from their pages. It helps there sales, affiliates are the reason Amazon is Amazon.

          However Google and other search engines (that matter) just consider it a “thin affiliate site” as in no original content. Therefore they don’t rank unless there’s a certain percentage of original content on the site as well.

          A scraper, is nothing more than a spider/crawler generally it runs in socket mode, however some run in browser.

          Just because it’s labeled as a scraper doesn’t make it bad per say, I use scrapers and spiders regularly to check my site for unnatural links, I check others for competition analysis, and keyword research and a variety of other tasks that do not harm anyone, but benefit me.

          However I don’t like or condone anyone scraping for the purpose of copyright infringement. Which is what this discussion is really about.

          Google uses the spider “Google Bot” to index the web along with 100’s of other search engines, there’s thousands, hundreds of thousands of spiders crawling the web for a variety of purposes. Google also scrapes websites to “cache” them. As do a lot of important services we need such as the historical web archives.

  32. Troy says

    I’m about to begin aggressively searching for sites that are copying my content and have the content removed. I no it is impacting how my site ranks so I have to do something about it. Any idea how much has to be copied before you can deliver DMCA notices? Is a paragraph in an article enough to legally be able to call it plagiarized?

  33. Dallas says

    You fail to mention that any self respecting autoblogger will strip out links and insert their own affiliate links rather than using your content as it comes, so your approach to getting links from them will usually fail.

  34. VeryCreative says

    I think that the best idea is to include affiliate links.
    After the last Pinguin update, my website was penalized. I started to analyze it and I’ve discovered that many other sites copied my content. I don’t know why, but those websites rank better than me in search engines, using my content.

    • Editorial Staff says

      Not just affiliate links. Include as many internal links. Because if those sites are linking back to your other pages, then Google will KNOW that you are the authority site.

      Administrador

      • Bayer says

        Hi wpbeginner.com Team. I really appreciate this article, but have one question in regards to having internal links in your pages/posts.

        I suppose you mean ‘absolute’ links?? Otherwise this may not work in your favour, once the content has been scraped… Well, so far I have always been going along with relative links, as you do I suppose. Which is the best method? Cheers!

  35. Gautam Doddamani says

    first of all your tutorial is just fantastic..hats off! just one doubt how to know if a site is a scraper site? i used your method and found out that Google Webmaster Tools is reporting that there are 262 links to my site and there are many sites which dont know of…thus i am in a confusion….how to check if a site is a scraper site or an authoritative site?? is der a tool available for that? thanks in advance!

      • Gautam Doddamani says

        yes that is true…but what if i dont want to find my article on those scraping sites…i know my article is there as it is being reported by GWT and i just want to block that IP address by inserting those rewritecond rules in the htaccess file…i dont want to waste my time searching those bad sites for my article or requesting them to takedown my article…

  36. Nathan says

    Thank you for this article – and for your site in general!. I like this so much that I had wondered how I would keep track of this resource. And now I see the subscriptions options below. What a way to get a comment!

  37. Yeasin says

    Preventing content scraping is almost impossible. I don’t think content scrapper does hurt me any way. They are just voting me that i have got some high quality contents. Google is smart enough to detect the original publishers. No-one should worry.

    • Gautam Doddamani says

      wow dats great man…do you use cloudflare? i just wanted your review because i have never used that cdn service..i know it is free and all but i think my site load time is already gr8 that i didnt require it…now that scrapeshield is there i think i will definitely check it out…what all other apps will we get if we start using cloudflare?? thanks

      • Matt says

        Hello,
        IMO @cloudflare really is awesome. I have two sites on it (both mine and my wife’s blog) and it really is incredibly fast, but that’s not to mention all of the security, traffic analysis, app support (automatic app installs) that they provide.

        I know that all hosting setups are different, but I have both of our sites running on the Media Temple (gs)Grid Service. I can honestly say that our sites run faster now than they did when I was using W3 Total Cache and Amazon S3 as my CDN. Actually, I still use W3TC on my site to minimize & cache my content, but I use CloudFlare for CDN, DNS, and security services.

        Highly recommend… Actually, I would really appreciate it if someone at WPBeginner would give us their in-depth, experienced opinion of the CloudFlare services. To me, they have been awesome!

  38. shivabeach says

    You can also get a plugin whose name eludes me at this time that does the google search for you. It also adds a code into your RSS that the app searches for

  39. MuhammadWaqas says

    Great post, I know there are many autoblogs fetching my content. Although after penguin update my site is getting 3 times more traffic from google than before. But after reading about many disasters or original content generators I’m worried about future penalties by google. 
     
    Its my experience that usually google respect high PR sites with good authority backlinks. but site is just one year old and PR is less than 5. 
     
    I try to contact scrappers but most of them don’t have contact forms. so I think I’ll try that htaccess method to blog the scrappers ip addresses. But only the other hand some of them can use feedburner. 

    • Garratt says

      Personally I don’t bother with RSS as most users don’t use it. Instead supply a newsletter feed. It does the same trick + you get emails to market to (if done correctly). Majority of people are more likely to subscribe to a blog rather than bookmark a RSS in my experience. So it’s better to turn off RSS. You can do this using WordPress SEO by Yoast, and various other plugins.

      Then if you also implement above mentioned strategies, you should be good. Remove all unnecessary headers RSD WLM etc.

      There will be a couple still able to scrape effectively but those tricks will diminish a great deal of them.

Deja tu comentario

Gracias por elegir dejar un comentario. Tenga en cuenta que todos los comentarios son moderados de acuerdo con nuestros política de comentarios, y su dirección de correo electrónico NO será publicada. Por favor, NO utilice palabras clave en el campo de nombre. Tengamos una conversación personal y significativa.