Tutoriales de WordPress de Confianza, cuando más los necesitas.
Guía para Principiantes de WordPress
Copa WPB
25 Millones+
Sitios web que usan nuestros plugins
16+
Años de experiencia en WordPress
3000+
Tutoriales de WordPress de expertos

Guía para principiantes para prevenir el raspado de contenido de blogs en WordPress

Imagina trabajar duro para escribir una gran historia o artículo, solo para descubrir que alguien más se lo atribuye como propio. Eso es lo que sucede cuando la gente roba el contenido de tu sitio web.

El robo de contenido, o 'scraping', es un gran problema para los propietarios de sitios web. Estas personas son ladrones que copian tu trabajo, lo usan en sus propios sitios y, a veces, incluso pretenden que es suyo. Esto puede ser realmente frustrante e injusto.

En este artículo, cubriremos qué es el robo de contenido de blogs, cómo puedes reducir y prevenir el robo de contenido, e incluso cómo aprovechar a los ladrones de contenido para tu propio beneficio.

Guía para principiantes para prevenir el raspado de contenido de blogs en WordPress

¿Qué es el robo de contenido de blogs en WordPress?

El robo de contenido de blogs ocurre cuando el contenido se toma de numerosas fuentes y se vuelve a publicar en otro sitio. Por lo general, esto se hace automáticamente a través del feed RSS de tu blog.

Desafortunadamente, es muy fácil y muy común que el contenido de tu blog de WordPress sea robado de esta manera. Si te ha sucedido, entonces entiendes lo estresante y frustrante que puede ser.

A veces, tu contenido se copiará y pegará directamente en otro sitio web, incluyendo tu formato, imágenes, videos y más.

Otras veces, tu contenido se republicará con atribución y un enlace a tu sitio web, pero sin tu permiso. Aunque esto puede ayudar a tu SEO, es posible que desees mantener tu contenido original alojado solo en tu sitio.

¿Por qué los ladrones de contenido roban contenido?

Algunos de nuestros usuarios nos han preguntado por qué los scrapers roban contenido. Por lo general, la principal motivación para el robo de contenido es lucrar con tu arduo trabajo:

  • Comisión de afiliados: Los afiliados deshonestos pueden usar tu contenido para atraer tráfico a su sitio a través de motores de búsqueda con el fin de promocionar sus productos de nicho.
  • Generación de leads: Los abogados y agentes inmobiliarios pueden pagarle a alguien para que agregue contenido y gane autoridad en su comunidad y no se dan cuenta de que se está extrayendo de otras fuentes.
  • Ingresos por publicidad: Los propietarios de blogs pueden extraer contenido para crear un centro de conocimiento en un nicho determinado 'por el bien de la comunidad' y luego llenar el sitio con anuncios.

¿Es posible prevenir completamente el scraping de contenido?

En este artículo, te mostraremos algunos pasos que puedes tomar para reducir y prevenir el scraping de contenido. Pero desafortunadamente, no hay forma de detener por completo a un ladrón decidido.

Es por eso que terminamos este artículo con una sección sobre cómo puedes aprovechar a los scrapers de contenido. Si bien no siempre puedes detener a un ladrón, es posible que puedas obtener algo de tráfico e ingresos a través del contenido que te han robado.

¿Qué debes hacer cuando descubres que alguien ha extraído tu contenido?

Dado que no es posible detener por completo a los scrapers, es posible que algún día descubras que alguien está usando contenido que robó de tu blog. Te preguntarás qué hacer cuando eso suceda.

Aquí hay algunos enfoques que la gente toma al tratar con scrapers de contenido:

  • No hacer nada: Puedes pasar mucho tiempo luchando contra los scrapers, por lo que algunos bloggers populares deciden no hacer nada. Google ya considera a los sitios conocidos como autoridades, pero eso no es cierto para los sitios más pequeños. Por lo tanto, este enfoque no siempre es el mejor, en nuestra opinión.
  • Eliminar: Puedes contactar al scraper y pedirle que elimine el contenido. Si se niega, entonces envía una notificación de eliminación. Puedes aprender cómo en nuestra guía sobre cómo encontrar y eliminar fácilmente contenido robado en WordPress.
  • Aprovechar: Si bien trabajamos activamente para que el contenido extraído de WPBeginner sea eliminado, también usamos algunas técnicas para obtener tráfico y ganar dinero de los scrapers. Puedes aprender cómo en la sección 'Aprovechar los scrapers de contenido' a continuación.

Dicho esto, veamos cómo prevenir el scraping de blogs en WordPress. Dado que esta es una guía completa, hemos incluido una tabla de contenido para facilitar la navegación:

  1. Registra el nombre y el logo de tu blog como marca registrada o de derechos de autor
  2. Haz que tu feed RSS sea más difícil de scrapear
  3. Deshabilita los trackbacks y pingbacks
  4. Bloquea el acceso del scraper a tu sitio web de WordPress
  5. Previene el robo de imágenes en WordPress
  6. Desalienta la copia manual de tu contenido
  7. Aprovecha los raspadores de contenido

Las leyes de marcas registradas y derechos de autor protegen tus derechos de propiedad intelectual, tu marca y tu negocio contra muchos desafíos legales. Esto incluye el plagio y el uso ilegal de tu material con derechos de autor o el nombre y logotipo de tu marca.

Debes mostrar claramente un aviso de derechos de autor en tu sitio. Si bien el contenido de tu sitio web está automáticamente cubierto por las leyes de derechos de autor, mostrar un aviso les hará saber que tu contenido tiene derechos de autor y que no pueden usar tus propiedades protegidas para fines comerciales.

Mostrar un aviso de derechos de autor en su sitio web

Por ejemplo, puedes agregar un aviso de derechos de autor con una fecha dinámica al pie de página de tu WordPress. Esto mantendrá tu aviso de derechos de autor actualizado.

Esto puede disuadir a algunos usuarios de robarlo. También te ayudará en caso de que necesites enviar una carta de cese y desistimiento o presentar una queja de la DMCA para eliminar tu contenido robado.

También puedes solicitar el registro de derechos de autor en línea. Este proceso puede ser complicado, pero afortunadamente, existen servicios legales de bajo costo que pueden ayudar a pequeñas empresas e individuos.

Aprende cómo en nuestra guía sobre cómo registrar la marca y los derechos de autor del nombre y logotipo de tu blog.

2. Haz que tu feed RSS sea más difícil de raspar

Dado que el raspado de contenido de blogs generalmente se realiza automáticamente a través del feed RSS de tu blog, veamos algunos cambios útiles que puedes hacer en tu feed.

No incluyas el contenido completo de la publicación en tu feed RSS de WordPress

Puedes incluir solo un resumen de cada publicación en tu feed RSS en lugar del contenido completo. Esto incluye un extracto, así como metadatos de la publicación, como la fecha, el autor y la categoría.

Ciertamente hay debate en la comunidad de blogs sobre si tener feeds RSS completos o feeds de resumen. No entraremos en eso ahora, excepto para decir que una de las ventajas de tener solo un resumen es que ayuda a prevenir el robo de contenido.

Puedes cambiar la configuración yendo a Ajustes » Lectura en tu panel de administración de WordPress. Necesitas seleccionar la opción 'Extracto' y luego hacer clic en el botón 'Guardar cambios'.

Los feeds RSS pueden contener el texto completo o un extracto de cada publicación

Ahora, el feed RSS solo mostrará un extracto de tu artículo. Si alguien está robando tu contenido a través de tu feed RSS, entonces solo obtendrá el resumen, no la publicación completa.

Si deseas ajustar el resumen, puedes consultar nuestra guía sobre cómo personalizar extractos de WordPress.

Optimiza tu feed RSS para prevenir el robo de contenido

Hay otras formas en que puedes optimizar tu feed RSS de WordPress para proteger tu contenido, obtener más enlaces entrantes, aumentar el tráfico de tu web y más. Una de las mejores maneras es retrasar la aparición de las publicaciones en el feed RSS.

El beneficio es que cuando retrasas la aparición de las publicaciones en tu feed RSS, le das tiempo a los motores de búsqueda para rastrear e indexar tu contenido antes de que aparezca en otros lugares, como en los sitios web de los rascadores. Los motores de búsqueda verán entonces tu sitio como la autoridad.

La forma más segura y fácil de hacer esto es usando WPCode porque tiene una receta que agrega automáticamente el código personalizado correcto en WordPress.

Agrega un fragmento usando WPCode

Para obtener instrucciones detalladas, consulta nuestra guía sobre cómo retrasar la aparición de publicaciones en el feed RSS de tu WordPress.

3. Desactivar Trackbacks, Pingbacks y la API REST

En los primeros días de los blogs, los trackbacks y pingbacks se introdujeron como una forma para que los blogs se notificaran mutuamente sobre los enlaces. Cuando alguien enlaza a una publicación en tu blog, su sitio web enviará automáticamente un ping al tuyo.

Esta notificación de enlace aparecerá en la cola de moderación de comentarios de tu blog con un enlace a su sitio web. Si la apruebas, obtendrán un backlink y una mención de tu sitio.

Esto le da al spammer un incentivo para rastrear tu sitio y enviar trackbacks. Afortunadamente, puedes deshabilitar los trackbacks y pingbacks para darles a los rastreadores una razón menos para robar tu contenido.

Deshabilitar Trackbacks y Pingbacks en WordPress

Para más información, consulta nuestra guía sobre deshabilitar trackbacks en todas las futuras publicaciones. También te podría interesar aprender cómo deshabilitar trackbacks y pings en publicaciones existentes de WordPress.

Deshabilitar la API REST de WordPress

Además de los trackbacks y pingbacks, también recomendamos deshabilitar la API REST de WordPress, ya que puede facilitar que los spammers rastreen tu contenido.

Tenemos una guía detallada sobre cómo puedes deshabilitar la API REST de WordPress.

Todo lo que necesitas hacer es instalar y activar el plugin gratuito WPCode y usar su fragmento prefabricado para deshabilitar la API REST.

4. Bloquear el acceso del rastreador a tu sitio web de WordPress

Una forma de evitar que los scrapers roben tu contenido es quitarles el acceso a tu sitio web. Puedes hacerlo manualmente bloqueando su dirección IP, pero la mayoría de los usuarios encontrarán más fácil usar un plugin de seguridad como un firewall de aplicaciones web.

Bloquea al Scraper Usando un Plugin de Seguridad (Recomendado)

Bloquear scrapers manualmente es complicado y requiere mucho trabajo. Especialmente porque muchos intentos de hackeo y ataques se realizan utilizando una amplia gama de direcciones IP aleatorias de todo el mundo. Es casi imposible mantenerse al día con todas esas direcciones IP aleatorias.

Es por eso que necesitas un Firewall de Aplicaciones Web (WAF) como Wordfence o Sucuri. Estos actúan como un escudo entre tu sitio web y todo el tráfico entrante, monitoreando el tráfico de tu sitio web y bloqueando amenazas de seguridad comunes antes de que lleguen a tu sitio de WordPress.

Para el sitio web de WPBeginner, usamos Sucuri. Es un servicio de seguridad para sitios web que protege tu sitio web contra este tipo de ataques utilizando un firewall de aplicaciones web.

Básicamente, todo el tráfico de tu sitio web pasa por los servidores del servicio de seguridad, donde se examina en busca de actividad sospechosa. Bloquean automáticamente las direcciones IP sospechosas para que no lleguen a tu sitio web. Mira cómo Sucuri nos ayudó a bloquear 450,000 ataques de WordPress en 3 meses.

Bloquea o Redirige Manualmente la Dirección IP del Scraper

Los usuarios avanzados también pueden desear bloquear manualmente la dirección IP de un scraper. Esto requiere más trabajo, pero puedes apuntar específicamente a la dirección del scraper una vez que la conozcas. El desarrollador web Jeff Star sugiere este enfoque cuando escribe sobre cómo maneja los scrapers de contenido.

Nota: Agregar código a los archivos del sitio web puede ser peligroso. Incluso un pequeño error puede causar grandes problemas en tu sitio. Es por eso que solo recomendamos este método para usuarios avanzados.

Puedes encontrar la dirección IP del scraper visitando los 'Registros de Acceso sin Procesar' en el panel de control de cPanel de tu cuenta de alojamiento web. Necesitas buscar direcciones IP con un número inusualmente alto de solicitudes y llevar un registro de ellas, por ejemplo, copiándolas en un archivo de texto aparte.

Bloquear la dirección IP del scraper

Consejo: Debes asegurarte de no terminar bloqueándote a ti mismo, a usuarios legítimos o a los motores de búsqueda para acceder a tu sitio web. Copia una dirección IP que parezca sospechosa y utiliza herramientas en línea de búsqueda de IP para obtener más información sobre ella.

Una vez que estés seguro de que la dirección IP pertenece a un rastreador, puedes bloquearla usando la herramienta ‘Bloqueador de IP’ de cPanel o agregando código como este en tu archivo raíz .htaccess:

Deny from 123.456.789

Asegúrate de reemplazar la dirección IP en el código con la que deseas bloquear. Puedes bloquear varias direcciones IP ingresándolas en la misma línea, separadas por espacios.

Para obtener instrucciones detalladas, consulta nuestra guía sobre cómo bloquear direcciones IP en WordPress.

En lugar de simplemente bloquear a los rastreadores, Jeff sugiere que podrías enviarles feeds RSS falsos. Podrías crear feeds llenos de Lorem Ipsum e imágenes molestas o incluso enviarlos de vuelta a su propio sitio web, causando un bucle infinito y bloqueando su servidor.

Para redirigirlos a un feed falso, necesitarás agregar código como este a tu archivo .htaccess:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

5. Evitar el robo de imágenes en WordPress

No es solo tu contenido escrito lo que necesitas proteger. También debes prevenir el robo de imágenes en WordPress.

Al igual que con el texto, no hay forma de evitar por completo que las personas roben tus imágenes, pero hay muchas maneras de disuadir el robo de imágenes en un sitio web de WordPress.

Por ejemplo, puedes deshabilitar el hotlinking de tus imágenes de WordPress. Esto significará que si alguien rastrea tu contenido HTML, sus imágenes no se cargarán en su sitio.

También reducirá la carga de su servidor y el uso de ancho de banda, aumentando la velocidad y el rendimiento de su WordPress.

Alternativamente, puede agregar una marca de agua a sus imágenes que le dé crédito. Esto dejará claro que el rastreador ha robado su contenido.

Puede aprender estas dos técnicas, así como otras formas de proteger sus imágenes, en nuestra guía sobre formas de prevenir el robo de imágenes en WordPress.

6. Desalentar la copia manual de su contenido

Si bien la mayoría de los rastreadores utilizan herramientas automáticas, algunos ladrones de contenido pueden intentar copiar manualmente todo o parte de su contenido.

Una forma de dificultar esto es evitar que copien y peguen su texto. Puede hacerlo dificultando la selección del texto en su sitio web.

Para aprender cómo detener la copia manual de su contenido, consulte nuestra guía paso a paso sobre cómo evitar la selección de texto y copiar/pegar en WordPress.

Sin embargo, esto no protegerá completamente su contenido. Recuerde, los usuarios expertos en tecnología aún pueden ver el código fuente o usar la herramienta Inspect para copiar lo que quieran. Además, este método no funcionará con todos los navegadores web.

Además, ten en cuenta que no todos los que copien tu texto serán ladrones de contenido. Por ejemplo, algunas personas querrán copiar el título para compartir tu publicación en redes sociales.

Es por eso que te recomendamos usar este método solo si sientes que es realmente necesario para tu sitio.

7. Aprovecha los raspadores de contenido

A medida que tu blog crece, es casi imposible detener o rastrear a todos los raspadores de contenido. Todavía enviamos quejas de DMCA. Sin embargo, sabemos que hay muchísimos otros sitios que están robando nuestro contenido con los que simplemente no podemos mantenernos al día.

En cambio, nuestro enfoque es tratar de aprovechar los raspadores de contenido. No es tan malo cuando ves que estás ganando dinero con tu contenido robado o recibiendo mucho tráfico del sitio web de un raspador.

Haz del enlace interno un hábito para obtener tráfico y backlinks de los raspadores

En nuestra guía definitiva de SEO, recomendamos que hagas del enlazado interno un hábito. Al colocar enlaces a tu otro contenido en tus publicaciones de blog, puedes aumentar las visitas a la página y reducir la tasa de rebote en tu propio sitio.

Pero hay un segundo beneficio cuando se trata de scraping. Los enlaces internos te conseguirán valiosos backlinks de las personas que están robando tu contenido. Los motores de búsqueda como Google utilizan los backlinks como una señal de clasificación, por lo que los backlinks adicionales son buenos para tu SEO.

Por último, estos enlaces internos te permiten robar la audiencia del scraper. Los bloggers talentosos colocan enlaces en palabras clave interesantes, lo que hace que sea tentador para los usuarios hacer clic. Los visitantes del sitio web del scraper también harán clic en los enlaces, lo que los llevará directamente de regreso a tu propio sitio web.

Vincula automáticamente palabras clave con enlaces de afiliados para ganar dinero con los scrapers

Si ganas dinero en tu sitio web con marketing de afiliados, te recomendamos habilitar el autovínculo en tus feeds RSS. Esto te ayudará a maximizar tus ganancias de los lectores que solo leen tu sitio web a través de lectores RSS.

Aún mejor, te ayudará a ganar dinero de los sitios que están robando tu contenido.

Simplemente usa un plugin de WordPress como ThirstyAffiliates que reemplazará automáticamente las palabras clave asignadas con enlaces de afiliados. Te mostramos cómo en nuestra guía sobre cómo enlazar automáticamente palabras clave con enlaces de afiliados en WordPress.

Promociona tu sitio web en el pie de página de tu RSS

Puedes usar el plugin All in One SEO para agregar elementos personalizados al pie de página de tu RSS.

Por ejemplo, puedes agregar un banner que promocione tus propios productos, servicios o contenido.

Guardar pie de página RSS de AIOSEO

La mejor parte es que esos banners también aparecerán en el sitio web del scraper.

En nuestro caso, siempre agregamos un pequeño descargo de responsabilidad al final de las publicaciones en nuestros feeds RSS. Al hacer esto, obtenemos un backlink al artículo original del sitio del scraper.

Esto le permite a Google y a otros motores de búsqueda saber que somos la autoridad. También les permite a sus usuarios saber que el sitio está robando nuestro contenido.

Para más consejos, consulta nuestra guía sobre cómo controlar el pie de página de tu feed RSS en WordPress.

Esperamos que este tutorial te haya ayudado a aprender cómo prevenir el raspado de contenido de blogs en WordPress. También te puede interesar nuestra guía definitiva de seguridad para WordPress o nuestra selección experta de los mejores plugins de protección de contenido para WordPress.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube para obtener tutoriales en video de WordPress. También puedes encontrarnos en Twitter y Facebook.

Descargo de responsabilidad: Nuestro contenido es compatible con el lector. Esto significa que si haces clic en algunos de nuestros enlaces, podemos ganar una comisión. Consulta cómo se financia WPBeginner, por qué es importante y cómo puedes apoyarnos. Aquí está nuestro proceso editorial.

El Kit de herramientas definitivo para WordPress

Obtén acceso GRATUITO a nuestro kit de herramientas: ¡una colección de productos y recursos relacionados con WordPress que todo profesional debería tener!

Interacciones del lector

90 CommentsLeave a Reply

  1. ¡OK Wow, esta es una guía increíblemente completa sobre cómo prevenir el raspado de contenido de blogs! Gracias, WPBeginner, por arrojar luz sobre este frustrante problema.
    Me gustó especialmente la sección sobre cómo hacer que el feed RSS sea más difícil de raspar, no lo había considerado antes.
    ¡El consejo sobre retrasar la aparición de publicaciones en el feed RSS es brillante y algo que definitivamente implementaré en mi propio blog ¡AHORA MISMO!

  2. Tengo muchos amigos que solían hablarme sobre usar el feed RSS y crear contenido en sus sitios web de esta manera. No sabía exactamente cómo funcionaba y qué beneficios obtenían al hacerlo.
    Raspado el contenido de otros y mostrarlo como si lo hubieran creado ellos mismos es una ofensa, pero en un mundo poco ético, ¿a quién le importa? Gracias por hacer esta guía, siguiendo la cual podemos evitar que nuestro contenido sea raspado y al menos podemos convertirlo en nuestra ventaja.

  3. Gracias por el artículo. Tengo un blog con más de 1200 artículos y necesito empezar a abordarlo también. Gracias por el valioso consejo.

  4. Gracias por la publicación.
    Pero, ¿puedo incluso eliminar o deshabilitar el feed RSS por completo o hay algún beneficio especial en él?
    Entonces, si quiero deshabilitar el feed RSS por completo, ¿cómo lo haré?
    Gracias.

  5. Oímos hablar mucho sobre obtener contenido del sitio mediante la curación de contenido. ¿Es el raspado de contenido lo mismo que la curación de contenido? Si no, ¿cuál es la diferencia entre los dos?

    • El raspado de contenido consiste en tomar contenido de otros sitios para colocarlo en tu sitio sin permiso; la curación de contenido normalmente consiste en enlazar a otro contenido dentro del contenido que has creado.

      Administrador

  6. Estoy teniendo estos problemas, tenía más de 20 para una de nuestras marcas, luego nos mudamos a otro lugar y volvieron.

  7. Encontré un raspador de contenido realmente malo de mi blog, no solo robaron mi contenido, usaron el mismo nombre para su blog de spam solo separado por un – y toda la descripción, etiqueta, básicamente intentando ser yo, usaron enlaces en el feed rss con mi blog, canal de youtube, facebook, twitter, pinterest & google plus, que aparece en su blog de spam, también descubrí que las imágenes png aparecen en la página principal pero las jpeg no, pero eso tal vez sea solo en blogger.

  8. Me encanta la idea de enlazar. Tendré que revisar la sugerencia de RSS, ya que olvidé cómo funciona exactamente, habiendo estado enfocado en escribir libros electrónicos de Kindle por un tiempo (¡hablar de raspado de contenido, cero protección allí! ... de ahí mi regreso a la escritura de sitios web), ¡pero siento que realmente tengo un lugar para empezar a proteger mi contenido! ¡Gracias!

  9. ¡GUAU! Hay mucho que considerar al iniciar un blog. Mi blog tiene solo 2 semanas. He usado principalmente WP Beginner para configurar mi blog. Mucha buena información presentada de una manera que un novato puede seguir.

    No sé si esto funciona para el raspado de contenido, pero he instalado un plugin llamado Copyright Proof. Deshabilita el clic derecho para que las personas no puedan copiar y pegar tu contenido.

    Decidí usar este plugin ya que era un plugin recomendado para sitios de autores.

  10. Otro gran artículo, trabajo como periodista independiente, así que vendo muchos artículos y depende de las personas que lo compran decidir sobre sus políticas.
    Pero también tengo un par de blogs y sitios web de afiliados, así que creo que podría necesitar echar un vistazo a lo que está sucediendo con mi contenido.

  11. ¿No dar crédito a quien se lo merece cuenta como "raspado de contenido"?

    Porque Jeff Starr escribió esta misma publicación en Perishable Press hace más de 5 años:

    Compara la estructura y la terminología de tu artículo con el original.

    Solo digo.

  12. Acabo de desarrollar un tema para Blogger y ese tema necesita un feed completo para funcionar. Me preocupa el raspado de contenido. Pienso que si muchos raspadores usan mi contenido en su sitio de Blogger, que tiene el mismo contenido que mi sitio, y los backlinks apuntan a mi sitio, mi blog será considerado spam a los ojos de Google y será eliminado.

  13. ¡Gracias por este increíble artículo con consejos útiles! De hecho, acabo de recibir una penalización por "Contenido Delgado" de Google. Le pedí ayuda a un experto en SEO, me dijo que dejara de raspar contenido. Me envió un enlace a un artículo que escribí ayer y pensó que lo había robado de otro sitio web. Lo peor es que me estaban robando a mí, ¡no solo ese artículo, sino probablemente un par de miles de artículos! Todavía están en la búsqueda de Google, y yo no. ¡Soy yo quien está siendo penalizado! Resulta que hay al menos tres sitios web que están raspando mi contenido, ni siquiera estoy seguro de qué hacer.

  14. Artículo increíble.

    Estoy algo de acuerdo con la mayoría de los puntos que has discutido. De hecho, algunos de los puntos son bastante geniales.

    Pero si tu único negocio se basa en el contenido de tu sitio web, ¿no deberíamos ser más cuidadosos con los scrapers?

    No creo que el robo de contenido sea bueno para el propietario del contenido.

    Supongo que todos deberíamos pensar en optar por alguna medida preventiva en lugar de reactiva. Puedes considerar usar ShieldSquare, una solución de protección de contenido para detener el scraping de contenido de forma permanente.

  15. Sé que este es un artículo antiguo, pero la única fuente que es NOTORIA por permitir el scraping de contenido es WordPress con su función "Press This". Básicamente, lo están fomentando.

  16. Creo que finalmente he encontrado la respuesta a mi problema. He estado pensando que alguien me ha estado robando mis historias y convirtiéndolas en historias "nuevas". Pensé que alguien estaba detrás de mí o que me estaba volviendo loco. Casi me estaba volviendo loco pensando así. Paranoico. Preocupado de que alguien estuviera escuchando mis llamadas telefónicas privadas. Cuando en realidad, ¡toda la información ha venido directamente de mi blog! Este artículo puede haberme salvado la vida. Literalmente. Ni siquiera estoy bromeando porque he tenido tanto miedo de que me estuviera volviendo loco y tratando de hablar de ello selectivamente con amigos, para obtener comentarios o apoyo, y que me miraran como si estuviera loco y necesitara ir al psiquiátrico por un tiempo. Este artículo hace que lo que me ha estado sucediendo tenga todo el sentido. ¡Gracias! Estoy abrumado por el alivio.

  17. Gracias por algunos consejos, pero una gran parte de este artículo no es muy útil. La mayoría de los 'scrappers' no son 'scrappers' ciegos, el contenido generalmente se extrae, lo ve un ojo humano y luego se publica. Lo que significa que incluso tomándose un minuto para mirar un artículo, el 'spam kid' puede publicar cientos de artículos copiados al día. El problema de los 'backlinks' es muy fácil de eludir para los 'content scrappers', ya que los importadores de 'feeds' tienen opciones de preprocesamiento y generalmente las configuran para eliminar los enlaces del cuerpo. Tampoco veo cómo convertir RSS en un resumen pueda ayudar en absoluto, los importadores de 'feeds' solo usan RSS para obtener el enlace del nuevo contenido y, a partir de ahí, siguen la estructura de tu HTML, que has configurado muy bien con etiquetas de imagen, título, enlace, etc. para la conveniencia de Google y extraen el contenido muy fácilmente.

    Obviamente, bloquear la IP es una muy buena solución. Las DMCA generalmente son una pérdida de tiempo; llevan tiempo de formular y los hosts estúpidos tardan en responder (ya que los 'spammers' eligen estos hosts específicamente porque son laxos con la actividad similar al 'spam'). De todos, Google es el más frustrante; no importa cuántos informes les presentes, nunca toman medidas sobre ningún contenido robado en el que muestren anuncios y aún así clasifican bien el sitio de 'crap-spam' en los resultados de búsqueda a pesar de que sus sistemas detectan fácilmente las copias.

    • John, no podría estar más de acuerdo contigo. Google se enojó conmigo diciendo que yo era la persona que robaba mi propio contenido. Esta persona robó mi contenido y lo puso en Blogger. ¡Qué descaro! Debe haber una solución para esto. En este punto, ¡solo bloqueo!

  18. Hola,
    Acabo de encontrar tu artículo mientras buscaba respuestas a algunas de mis inquietudes.
    Yo, junto con algunos amigos, lanzamos un sitio web sobre bricolaje en Italia hace unos meses, el cual está funcionando inesperadamente bien, los rankings son altos, mucho tráfico, etc. Aun así, el PR es todavía 0. Nuestro contenido tiene una licencia Creative Commons 4.0, porque realmente creemos que es una buena manera de compartir contenidos. SIN EMBARGO:
    Hace algún tiempo notamos que un sitio PR4 con mucho tráfico estaba copiando nuestros mejores artículos, enlazando de vuelta a nuestra página de inicio (que no es lo que se supone que debes hacer con una licencia CC, pero aún así está bien). Los problemas son estos:
    1. Hay una gran cantidad de sitios más pequeños que copian su (nuestro) contenido y enlazan de vuelta a ellos en lugar de a nuestro sitio.
    2. El sitio PR4 y algunos de los sitios más pequeños, de alguna manera, se clasifican mejor que nuestro sitio.
    3. Hay fuertes indicios de que se ha producido una penalización de Google a NUESTRO contenido, ya que tiene un PR más bajo que la mayoría de las otras páginas (que han estado en línea durante mucho tiempo).

    Estamos en contacto con el sitio PR4 y nos parece bien que usen nuestro contenido, siempre y cuando enlacen de vuelta al artículo original (ese es el propósito de la licencia CC), PERO estamos tratando de encontrar una solución para evitar recibir penalizaciones de Google: ¿el rel canonical haría el trabajo? ¿Cuál es tu opinión? ¿Deberíamos cambiar nuestra licencia y ser más agresivos contra la copia de contenido?
    ¡Gracias!

    • Philipp, si aún no lo has hecho, deberías crear una cuenta de herramientas para webmasters para tu sitio y enviar tu sitemap. Te ayuda a determinar si hay algún problema con tu sitio, cómo le está yendo a tu sitio en las búsquedas, y puedes usar muchas otras herramientas. También ayuda a Google a comprender mejor dónde apareció por primera vez cierto contenido.

      No creemos que cambiar la licencia detenga a los rastreadores de contenido de copiar tu contenido.

      Administrador

      • ¡Hola! Sí, configuramos una cuenta de herramientas para webmasters, vinculamos el sitio a nuestra página de Google+ y a la mayoría de los autores a sus perfiles de Google+ usando etiquetas de editor y autor. La autoría parece estar funcionando bien en los fragmentos de búsqueda, pero hasta ahora no parece marcar una gran diferencia en el caso de contenido rastreado. Las páginas con mayor PR que rastrean nuestro contenido siguen estando arriba...

  19. Una de las mejores maneras de no verse afectado por esto es hacer ping de manera efectiva. Hacer ping y enviar páginas manualmente a Google y Bing hace que las arañas lleguen a tu sitio RÁPIDAMENTE. Indexan las páginas lo antes posible, y luego, cuando encuentran contenido duplicado en otros sitios, te consideran la autoridad.

    Sin embargo, tengo la sospecha de que esto podría tener que ver con PageRank... Pero Matt Cutts (equipo de webspam de Google) ha defendido el uso de pinger sobre este mismo tema. Simplemente no estoy seguro de cuánto puedo confiar en lo que dice.

    Para agregar más servicios, ve a Configuración -> Configuración de escritura -> Servicios de actualización -> Abre el enlace "Servicios de actualización" en una nueva pestaña y copia todos los servicios de actualización. De vuelta en WordPress, pégalos en la lista de ping y haz clic en guardar.

    Abre una cuenta en las herramientas para webmasters de Bing para el envío manual de URL para una indexación rápida.

  20. Recientemente descubrí a un tipo que puede tomar un feed RSS de mi blog – ten en cuenta que mi blog es un feed de resumen con la línea de Yoast 'Esta publicación se encontró primero en'. Le envié un mensaje de agradecimiento al tipo, básicamente diciéndole que me está dando backlinks, Y diciéndole a Google que está copiando mi sitio web (ya que pueden ver las marcas de tiempo para ver cuál se publicó primero).

    Lo revisé 2 días después, y todas mis cosas habían desaparecido misteriosamente...

    • Definitivamente puedes usar ese plugin. Bloquea clics derechos, atajos de teclado para copiar, lista negra de IP, etc. Todo eso previene el scraping manual, sin embargo, la mayoría de los scrapers de contenido usan herramientas automáticas. Así que ninguno de esos sería de gran ayuda.

      Administrador

    • Gracias por tu respuesta – la versión pro dice que te protege de ataques de bots, así que supongo que eso significa bots de scraping? El precio me disuade de instalarlo en todos mis sitios, pero quizás lo use en uno solo para ver qué tan bien funciona.

  21. Este es uno de los mejores, si no el mejor, artículo para "principiantes" que he encontrado en la web.

    Después de leerlo, siento como si acabara de tener una reunión con un consultor de seguridad.

    ¡Estoy aplicando estas técnicas ahora mismo!

    Gracias. Ahora soy seguidor de este sitio.

  22. Solo me ha pasado un par de veces. Algún bloguero de fuera de EE. UU. ha tomado mi publicación palabra por palabra y la ha publicado en su sitio como si fuera propia. Como solo era una publicación con mi video de YouTube incrustado, no me preocupé demasiado por los detalles, ya que el CTR de mi canal vio un buen aumento en las visitas de todos modos.

  23. ¡Solo quiero decir gracias, gracias y gracias!

    Descubrí tu sitio web hoy, solo he leído 3 artículos hasta ahora (incluido este)... pero estoy extremadamente impresionado.

    Llevo solo 5 semanas blogueando, pero me resulta adictivo, especialmente al ver el creciente tráfico y la participación de los usuarios como resultado de mis esfuerzos. Ver 100 visitantes en mi blog en un día, y poder ver quién me refiere, me motiva a aprender todo lo que pueda para aumentar el marketing en redes sociales y las interacciones con nuevos visitantes.

    Saludos,
    @earthlingEd

  24. ¡Me encanta tu sitio web y me quedé boquiabierto al leer sobre el robo de contenido! ¿Hay alguna forma de crear una marca de agua de alguna manera que no distraiga a tus lectores, pero que sea obvia para el sitio del scraper?

  25. ¿Hay alguna forma / plugin

    alguien está copiando mis fotos de mi blog de moda y publicándolas en su foro

    pero cuando hago clic en la imagen en ese foro, se abre en una nueva ventana

    quiero algún plugin o script que si copia mis imágenes cuando alguien hace clic en esas imágenes, entonces esa persona sea redirigida a mi publicación de blog relacionada con esas imágenes?

    ¿algún plugin todavía? ¿enlace con imágenes de publicaciones?

  26. Si alguien toma un artículo escrito en inglés y lo traduce, usando su cabeza y no Google Translate, a otro idioma, digamos porque la mayoría de la gente en el país de ese otro idioma no entiende inglés. ¿Los señalarías como scrapers de todos modos? ¿O cuál es tu opinión al respecto?
    Personalmente, no me parece extremadamente problemático, por supuesto, creo que el "autor" debería enlazar de vuelta al artículo original y aclarar que su artículo es una traducción.

  27. Este es un artículo tremendo. Después de leerlo, espero que no me veas como un scraper de contenido. He usado extractos tuyos (curados), siempre tengo el 'Leer el artículo completo' y tu enlace de página allí, y también muchos de mis posts son tuiteados e incluyo tu cuenta de Twitter allí. Si no quieres esto, por favor házmelo saber y con gusto lo eliminaré. Estoy muy agradecido por tu trabajo y quiero compartirlo con mis visitantes. No está destinado a robar tus visitantes, sino a poder darles un buen valor a los míos y enviarlos a ti para más.

    • Greg, siempre y cuando solo muestres un extracto y envíes al usuario a nuestro sitio para leer el artículo completo, entonces no es scraping. Como dijiste, es curación. Un montón de sitios populares hacen eso (es decir, reddit, digg, etc.).

      Administrador

  28. Mi sitio tiene muchos artículos originales de seguridad y un par han sido extraídos. El sitio que me extrajo estaba en Yahoo! News con mi artículo y la gente comentaba al respecto. Manejé el problema comentando y diciendo que yo era el autor original y respondí a algunos comentarios. Tenía enlaces internos, así es como me enteré tan rápido. Un truco sobre el que voy a escribir es conseguir que las personas que vienen de un sitio de extracción vean un banner o una imagen que les diga lo que sucedió. La sugerencia de solicitud interminable suena ilegal bajo la ley de fraude y abuso informático. No soy abogado. Solo escribo sobre seguridad, así que tengo que conocer las leyes de seguridad para computadoras.

    No me gusta que tu formulario no haya aceptado el correo electrónico de mi empresa como un correo electrónico válido.

    • Lo sentimos, Ryan, que nuestro formulario no haya aprobado tu correo electrónico de negocios. No estoy seguro de qué sucedió ahí, pero está diseñado para aprobar todos los correos electrónicos válidos.

      Administrador

  29. buena e informativa redacción, me gusta tu enfoque de aprovechar a los extractores, sin embargo, bloquear una IP puede no funcionar siempre; un extractor serio a menudo usaría una lista de proxies anónimos o gratuitos, en ese caso, poner en lista negra una IP podría no ser una solución efectiva, ya que el extractor la cambiaría a menudo. Una solución es escribir un pequeño script que detecte cualquier tráfico anormal de una IP dada, digamos más de 20 accesos/segundo y lo desafíe con un captcha si no hay respuesta, ponga la IP en una lista negra temporal durante unos 30 minutos. Puedes endurecerlo con otro javascript que detecte movimiento del ratón, táctil o del teclado después de algunos accesos, si no se detecta teclado, ratón o táctil, puedes volver a poner el extractor en la lista negra temporal, nos funcionó de maravilla.

  30. Tus soluciones son lo suficientemente buenas para los raspadores de contenido.
    Pero, ¿qué pasa si las personas copian y pegan contenido manualmente en sus páginas de Facebook.
    Hemos implementado tynt pero eliminan el enlace al artículo original, ¿alguna idea sobre cómo puedes manejar este tipo de situación?

      • En realidad, hay un plugin creado por IMWealth Builders, probablemente el único de sus plugins que me gusta, el resto son bastante basura e implican raspar sitios de comercio electrónico (CB, Azon, CJ, etc.) para comisiones de afiliados.

        Se llama “Covert Copy Traffic” y en realidad te permite establecer cualquier texto antes o después de un número determinado de palabras. Así que, digamos que lo configuro para que publique “Este contenido fue tomado de xxxxxxx.com” después de 18 palabras. Entonces, cada vez que alguien copiara/pegara más de 18 palabras del sitio web, agregaría ese texto al final; si fueran 17 palabras o menos, no haría nada.

        Estas fueron solo configuraciones de ejemplo. Un plugin bastante útil, funciona a la perfección. He intentado de casi todas las maneras que se me ocurrieron para evitar la inserción de texto, pero parece ser imposible. El plugin es demasiado fuerte.

        • Sí, así es. Puedes usar ese script para decir “El contenido provino de tu sitio web.com” en lugar de “Leer más”.

        • ¿Es cierto que sus programas de Amazon, etc., son raspadores (scrapers)? Si es así, he cometido un gran error en una compra de ellos; por suerte, aún no lo he usado.

        • Sí, Jennae, es legal en términos de que Amazon te permite copiar contenido de sus páginas. Ayuda a sus ventas, los afiliados son la razón por la que Amazon es Amazon.

          Sin embargo, Google y otros motores de búsqueda (que importan) simplemente lo consideran un “sitio de afiliados delgado” en el sentido de que no tiene contenido original. Por lo tanto, no se clasifican a menos que haya un cierto porcentaje de contenido original en el sitio también.

          Un raspador (scraper) no es más que una araña/rastreador (spider/crawler), generalmente se ejecuta en modo socket, sin embargo, algunos se ejecutan en el navegador.

          El hecho de que esté etiquetado como raspador no lo hace malo per se; uso raspadores y arañas regularmente para revisar mi sitio en busca de enlaces antinaturales, reviso otros para análisis de competencia e investigación de palabras clave y una variedad de otras tareas que no dañan a nadie, pero me benefician.

          Sin embargo, no me gusta ni apruebo que nadie raspe con el propósito de infringir derechos de autor. Que es de lo que realmente trata esta discusión.

          Google utiliza la araña “Google Bot” para indexar la web junto con cientos de otros motores de búsqueda; hay miles, cientos de miles de arañas rastreando la web para una variedad de propósitos. Google también raspa sitios web para “guardarlos en caché”. Al igual que muchos servicios importantes que necesitamos, como los archivos históricos de la web.

  31. Estoy a punto de empezar a buscar agresivamente sitios que copian mi contenido y a hacer que eliminen el contenido. Sé que está afectando cómo se clasifica mi sitio, así que tengo que hacer algo al respecto. ¿Alguna idea de cuánto tiene que ser copiado antes de que puedas enviar avisos de DMCA? ¿Es un párrafo en un artículo suficiente para poder llamarlo legalmente plagiado?

  32. Dejas de mencionar que cualquier autoblogger que se respete eliminará los enlaces e insertará sus propios enlaces de afiliado en lugar de usar tu contenido tal como viene, por lo que tu enfoque para obtener enlaces de ellos generalmente fallará.

  33. Creo que la mejor idea es incluir enlaces de afiliados.
    Después de la última actualización de Pinguin, mi sitio web fue penalizado. Comencé a analizarlo y descubrí que muchos otros sitios copiaron mi contenido. No sé por qué, pero esos sitios web se posicionan mejor que yo en los motores de búsqueda, usando mi contenido.

      • Hola equipo de wpbeginner.com. Realmente aprecio este artículo, pero tengo una pregunta con respecto a tener enlaces internos en tus páginas/publicaciones.

        ¿Supongo que te refieres a enlaces 'absolutos'?? De lo contrario, esto podría no funcionar a tu favor, una vez que el contenido haya sido raspado... Bueno, hasta ahora siempre he estado de acuerdo con los enlaces relativos, como supongo que tú también. ¿Cuál es el mejor método? ¡Saludos!

  34. antes que nada, tu tutorial es simplemente fantástico... ¡me quito el sombrero! solo una duda, ¿cómo saber si un sitio es un sitio 'scraper'? usé tu método y descubrí que Google Webmaster Tools informa que hay 262 enlaces a mi sitio y hay muchos sitios que no lo saben... por lo tanto, estoy en una confusión... ¿cómo verificar si un sitio es un sitio 'scraper' o un sitio con autoridad? ¿hay alguna herramienta disponible para eso? ¡gracias de antemano!

      • sí, eso es cierto... pero ¿qué pasa si no quiero encontrar mi artículo en esos sitios de 'scraping'? Sé que mi artículo está allí, ya que GWT lo informa y solo quiero bloquear esa dirección IP insertando esas reglas rewritecond en el archivo htaccess... no quiero perder mi tiempo buscando esos sitios malos para mi artículo o pidiéndoles que retiren mi artículo.

  35. Gracias por este artículo, ¡y por tu sitio en general! Me gusta tanto que me preguntaba cómo haría para llevar un registro de este recurso. Y ahora veo las opciones de suscripción abajo. ¡Qué forma de obtener un comentario!

  36. Prevenir el raspado de contenido es casi imposible. No creo que los raspadores de contenido me hagan daño de ninguna manera. Simplemente me están votando que tengo contenido de alta calidad. Google es lo suficientemente inteligente como para detectar a los publicadores originales. Nadie debería preocuparse.

    • wow, eso es genial, hombre... ¿usas cloudflare? Solo quería tu opinión porque nunca he usado ese servicio de CDN... sé que es gratis y todo, pero creo que el tiempo de carga de mi sitio ya es genial, así que no lo necesito... ahora que existe scrapeshield, creo que definitivamente lo revisaré... ¿qué otras aplicaciones obtendremos si empezamos a usar cloudflare?? gracias

      • Hola,
        IMO @cloudflare realmente es increíble. Tengo dos sitios en él (tanto el mío como el blog de mi esposa) y es increíblemente rápido, pero eso sin mencionar toda la seguridad, el análisis de tráfico, el soporte de aplicaciones (instalaciones automáticas de aplicaciones) que brindan.

        Sé que todas las configuraciones de hosting son diferentes, pero tengo ambos sitios funcionando en Media Temple (gs)Grid Service. Honestamente puedo decir que nuestros sitios ahora corren más rápido de lo que lo hacían cuando usaba W3 Total Cache y Amazon S3 como mi CDN. De hecho, todavía uso W3TC en mi sitio para minimizar y cachear mi contenido, pero uso CloudFlare para servicios de CDN, DNS y seguridad.

        Lo recomiendo ampliamente… De hecho, realmente agradecería si alguien en WPBeginner nos diera su opinión profunda y experimentada sobre los servicios de CloudFlare. ¡Para mí, han sido geniales!

  37. También puedes obtener un plugin cuyo nombre no recuerdo en este momento que hace la búsqueda de Google por ti. También agrega un código en tu RSS que la aplicación busca.

  38. ¡Gran publicación! Sé que hay muchos autoblogs que extraen mi contenido. Aunque después de la actualización de Penguin, mi sitio está recibiendo 3 veces más tráfico de Google que antes. Pero después de leer sobre muchos desastres o generadores de contenido original, me preocupa que Google me penalice en el futuro. Mi experiencia es que generalmente Google respeta los sitios con alto PR y buenos backlinks de autoridad. Pero el sitio tiene solo un año y el PR es menor a 5. Intento contactar a los scrappers, pero la mayoría no tiene formularios de contacto. Así que creo que probaré el método htaccess para bloquear las direcciones IP de los scrappers. Pero por otro lado, algunos de ellos pueden usar FeedBurner.

    • Personalmente, no me molesto con RSS ya que la mayoría de los usuarios no lo usan. En su lugar, ofrece un feed de boletín informativo. Hace el mismo truco + obtienes correos electrónicos para comercializar (si se hace correctamente). La mayoría de las personas son más propensas a suscribirse a un blog en lugar de marcar un RSS en mi experiencia. Así que es mejor desactivar RSS. Puedes hacer esto usando WordPress SEO by Yoast y varios otros plugins.

      Entonces, si también implementas las estrategias mencionadas anteriormente, deberías estar bien. Elimina todas las cabeceras innecesarias RSD WLM, etc.

      Habrá un par que aún podrán raspar de manera efectiva, pero esos trucos disminuirán a una gran cantidad de ellos.

Deja una respuesta

Gracias por elegir dejar un comentario. Ten en cuenta que todos los comentarios son moderados de acuerdo con nuestra política de comentarios, y tu dirección de correo electrónico NO será publicada. Por favor, NO uses palabras clave en el campo del nombre. Tengamos una conversación personal y significativa.