Imagine trabalhar duro para escrever uma ótima história ou artigo, apenas para descobrir que outra pessoa o está reivindicando como seu. É isso que acontece quando as pessoas roubam o conteúdo do seu site.
Roubo de conteúdo, ou 'scraping', é um grande problema para proprietários de sites. Essas pessoas são ladrões que copiam seu trabalho, usam em seus próprios sites e, às vezes, até fingem que é deles. Isso pode ser realmente frustrante e injusto.
Neste artigo, abordaremos o que é scraping de conteúdo de blog, como você pode reduzir e prevenir o scraping de conteúdo e até mesmo como tirar proveito de scrapers de conteúdo para seu próprio benefício.

O que é Scraping de Conteúdo de Blog no WordPress?
Scraping de conteúdo de blog é quando o conteúdo é retirado de várias fontes e republicado em outro site. Geralmente, isso é feito automaticamente através do feed RSS do seu blog.
Infelizmente, é muito fácil e muito comum ter o conteúdo do seu blog WordPress roubado dessa maneira. Se isso aconteceu com você, então você entende o quão estressante e frustrante pode ser.
Às vezes, seu conteúdo será simplesmente copiado e colado diretamente em outro site, incluindo sua formatação, imagens, vídeos e muito mais.
Outras vezes, seu conteúdo será republicado com atribuição e um link de volta para o seu site, mas sem sua permissão. Embora isso possa ajudar seu SEO, você pode querer manter seu conteúdo original hospedado apenas em seu site.
Por que os Scrapers de Conteúdo Roubam Conteúdo?
Alguns de nossos usuários perguntaram por que os scrapers estão roubando conteúdo. Geralmente, a principal motivação para o roubo de conteúdo é lucrar com o seu trabalho árduo:
- Comissão de Afiliados: Afiliados desonestos podem usar seu conteúdo para gerar tráfego para seus sites através de mecanismos de busca, a fim de promover seus produtos de nicho.
- Geração de Leads: Advogados e corretores podem pagar alguém para adicionar conteúdo e ganhar autoridade em sua comunidade, sem perceber que ele está sendo extraído de outras fontes.
- Receita de Publicidade: Proprietários de blogs podem extrair conteúdo para criar um centro de conhecimento em um determinado nicho 'pelo bem da comunidade' e, em seguida, lotar o site com anúncios.
É Possível Impedir Completamente o Scraping de Conteúdo?
Neste artigo, mostraremos algumas medidas que você pode tomar para reduzir e prevenir o scraping de conteúdo. Mas, infelizmente, não há como impedir completamente um ladrão determinado.
É por isso que terminamos este artigo com uma seção sobre como você pode tirar proveito dos scrapers de conteúdo. Embora você nem sempre possa impedir um ladrão, pode ser capaz de obter algum tráfego e receita através do conteúdo que eles roubaram de você.
O Que Fazer Quando Descobrir Que Alguém Raspou Seu Conteúdo?
Como não é possível impedir completamente os scrapers, você pode descobrir um dia que alguém está usando conteúdo roubado do seu blog. Você pode se perguntar o que fazer quando isso acontecer.
Aqui estão algumas abordagens que as pessoas tomam ao lidar com scrapers de conteúdo:
- Não Fazer Nada: Você pode gastar muito tempo lutando contra scrapers, então alguns blogueiros populares decidem não fazer nada. O Google já vê sites conhecidos como autoridades, mas isso não é verdade para sites menores. Portanto, essa abordagem nem sempre é a melhor, na nossa opinião.
- Remoção: Você pode entrar em contato com o scraper e pedir que ele remova o conteúdo. Se eles recusarem, você envia um aviso de remoção. Você pode aprender como em nosso guia sobre como encontrar e remover facilmente conteúdo roubado no WordPress.
- Aproveitar: Embora trabalhemos ativamente para remover o conteúdo raspado do WPBeginner, também usamos algumas técnicas para obter tráfego e ganhar dinheiro com os scrapers. Você pode aprender como na seção 'Aproveitar Scrapers de Conteúdo' abaixo.
Dito isso, vamos ver como impedir o scraping de blogs no WordPress. Como este é um guia abrangente, incluímos um índice para facilitar a navegação:
- Registre o nome e o logotipo do seu blog como direitos autorais ou marca registrada
- Torne seu feed RSS mais difícil de raspar
- Desativar Trackbacks e Pingbacks
- Bloquear o acesso do scraper ao seu site WordPress
- Prevenir o roubo de imagens no WordPress
- Desencorajar a cópia manual do seu conteúdo
- Aproveite os Raspadores de Conteúdo
1. Registre o Nome e o Logotipo do Seu Blog para Direitos Autorais ou Marca Registrada
As leis de marca registrada e direitos autorais protegem seus direitos de propriedade intelectual, sua marca e seu negócio contra muitos desafios legais. Isso inclui plágio e uso ilegal de seu material protegido por direitos autorais ou do nome e logotipo de sua marca.
Você deve exibir claramente um aviso de direitos autorais em seu site. Embora o conteúdo do seu site seja automaticamente coberto pelas leis de direitos autorais, exibir um aviso informará que seu conteúdo é protegido por direitos autorais e que eles não podem usar suas propriedades protegidas para fins comerciais.

Por exemplo, você pode adicionar um aviso de direitos autorais com uma data dinâmica ao rodapé do seu WordPress. Isso manterá seu aviso de direitos autorais atualizado.
Isso pode desencorajar alguns usuários de roubá-lo. Também ajudará no caso de você precisar enviar uma carta de cessação e desistência ou registrar uma reclamação da DCMA para remover seu conteúdo roubado.
Você também pode solicitar o registro de direitos autorais online. Esse processo pode ser complicado, mas, felizmente, existem serviços jurídicos de baixo custo que podem ajudar pequenas empresas e indivíduos.
Saiba como em nosso guia sobre como registrar marca e direitos autorais do nome e logotipo do seu blog.
2. Torne seu Feed RSS Mais Difícil de Raspar
Como a raspagem de conteúdo de blogs geralmente é feita automaticamente através do feed RSS do seu blog, vamos analisar algumas alterações úteis que você pode fazer em seu feed.
Não Inclua o Conteúdo Completo da Postagem no Seu Feed RSS do WordPress
Você pode incluir apenas um resumo de cada postagem em seu feed RSS em vez do conteúdo completo. Isso inclui um trecho, bem como metadados da postagem, como data, autor e categoria.
Certamente há um debate na comunidade de blogs sobre se deve ter feeds RSS completos ou feeds de resumo. Não vamos entrar nisso agora, exceto para dizer que um dos prós de ter apenas um resumo é que ele ajuda a prevenir o roubo de conteúdo.
Você pode alterar as configurações indo em Configurações » Leitura no seu painel de administração do WordPress. Você precisa selecionar a opção 'Resumo' e, em seguida, clicar no botão 'Salvar alterações'.

Agora, o feed RSS mostrará apenas um trecho do seu artigo. Se alguém estiver roubando seu conteúdo através do seu feed RSS, então eles obterão apenas o resumo, não a postagem completa.
Se você quiser ajustar o resumo, pode consultar nosso guia sobre como personalizar trechos do WordPress.
Otimize seu feed RSS para evitar roubo de conteúdo
Existem outras maneiras de otimizar seu feed RSS do WordPress para proteger seu conteúdo, obter mais backlinks, aumentar o tráfego da web e muito mais. Uma das melhores maneiras é atrasar a aparição das postagens no feed RSS.
O benefício é que, quando você atrasa a aparição das postagens em seu feed RSS, você dá tempo para os mecanismos de busca rastrearem e indexarem seu conteúdo antes que ele apareça em outros lugares, como em sites de roubo de conteúdo. Os mecanismos de busca verão seu site como a autoridade.
A maneira mais segura e fácil de fazer isso é usando o WPCode porque ele tem uma receita que adiciona automaticamente o código personalizado correto ao WordPress.

Para instruções detalhadas, veja nosso guia sobre como atrasar a aparição de posts no feed RSS do seu WordPress.
3. Desativar Trackbacks, Pingbacks e REST API
Nos primórdios do blogging, os trackbacks e pingbacks foram introduzidos como uma forma para os blogs notificarem uns aos outros sobre links. Quando alguém linka para um post no seu blog, o site dessa pessoa enviará automaticamente um ping para o seu.
Este pingback aparecerá então na fila de moderação de comentários do seu blog com um link para o site deles. Se você o aprovar, eles receberão um backlink e uma menção do seu site.
Isso dá ao spammer um incentivo para rastrear seu site e enviar trackbacks. Felizmente, você pode desativar trackbacks e pingbacks para dar aos scrapers um motivo a menos para roubar seu conteúdo.

Para mais informações, confira nosso guia sobre desativar trackbacks em todas as postagens futuras. Você também pode gostar de aprender como desativar trackbacks e pings em posts existentes do WordPress.
Desativar a API REST do WordPress
Além de trackbacks e pingbacks, também recomendamos desativar a API REST do WordPress, pois isso pode facilitar para os spammers rastrearem seu conteúdo.
Temos um guia detalhado sobre como você pode desativar a API REST do WordPress.
Tudo o que você precisa fazer é instalar e ativar o plugin gratuito WPCode e usar o snippet pré-fabricado deles para desativar a API REST.
4. Bloquear o Acesso do Scraper ao Seu Site WordPress
Uma maneira de impedir que scrapers roubem seu conteúdo é tirar o acesso deles ao seu site. Você pode fazer isso manualmente bloqueando o endereço IP deles, mas a maioria dos usuários achará mais fácil usar um plugin de segurança, como um firewall de aplicação web.
Bloqueie o Scraper Usando um Plugin de Segurança (Recomendado)
Bloquear scrapers manualmente é complicado e dá muito trabalho. Especialmente porque muitas tentativas de hacking e ataques são feitos usando uma ampla gama de endereços IP aleatórios de todo o mundo. É quase impossível acompanhar todos esses endereços IP aleatórios.
É por isso que você precisa de um Firewall de Aplicação Web (WAF) como Wordfence ou Sucuri. Eles agem como um escudo entre seu site e todo o tráfego de entrada, monitorando o tráfego do seu site e bloqueando ameaças de segurança comuns antes que elas cheguem ao seu site WordPress.
Para o site WPBeginner, usamos Sucuri. É um serviço de segurança de sites que protege seu site contra tais ataques usando um firewall de aplicação web.
Basicamente, todo o tráfego do seu site passa pelos servidores do serviço de segurança, onde é examinado em busca de atividades suspeitas. Eles bloqueiam automaticamente endereços IP suspeitos de chegarem ao seu site. Veja como a Sucuri nos ajudou a bloquear 450.000 ataques ao WordPress em 3 meses.
Bloqueie ou Redirecione Manualmente o Endereço IP do Scraper
Usuários avançados também podem desejar bloquear manualmente o endereço IP de um scraper. Isso dá mais trabalho, mas você pode direcionar especificamente o endereço do scraper assim que o descobrir. O desenvolvedor web Jeff Star sugere essa abordagem ao escrever sobre como ele lida com scrapers de conteúdo.
Observação: Adicionar código a arquivos de site pode ser perigoso. Mesmo um pequeno erro pode causar grandes problemas em seu site. É por isso que recomendamos este método apenas para usuários avançados.
Você pode encontrar o endereço IP do scraper visitando os 'Registros de Acesso Brutos' no painel do cPanel de sua conta de hospedagem web. Você precisa procurar endereços IP com um número incomumente alto de solicitações e mantê-los registrados, por exemplo, copiando-os para um arquivo de texto separado.

Dica: Você precisa garantir que não acabe bloqueando a si mesmo, usuários legítimos ou mecanismos de busca de acessar seu site. Copie um endereço IP de aparência suspeita e use ferramentas de consulta de IP online para descobrir mais sobre ele.
Uma vez que você tenha certeza de que o endereço IP pertence a um scraper, você pode bloqueá-lo usando a ferramenta ‘Bloqueador de IP’ do cPanel ou adicionando um código como este em seu arquivo raiz .htaccess:
Deny from 123.456.789
Certifique-se de substituir o endereço IP no código pelo que você deseja bloquear. Você pode bloquear vários endereços IP inserindo-os na mesma linha, separados por espaços.
Para instruções detalhadas, consulte nosso guia sobre como bloquear endereços IP no WordPress.
Em vez de simplesmente bloquear os scrapers, Jeff sugere que você poderia enviar feeds RSS falsos para eles. Você poderia criar feeds cheios de Lorem Ipsum e imagens irritantes ou até mesmo enviá-los de volta para o próprio site deles, causando um loop infinito e travando o servidor deles.
Para redirecioná-los para um feed falso, você precisará adicionar um código como este ao seu arquivo .htaccess:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
5. Impede o Roubo de Imagens no WordPress
Não é apenas o seu conteúdo escrito que você precisa proteger. Você também deve impedir o roubo de imagens no WordPress.
Assim como o texto, não há como impedir completamente que as pessoas roubem suas imagens, mas existem muitas maneiras de desencorajar o roubo de imagens em um site WordPress.
Por exemplo, você pode desabilitar o hotlinking de suas imagens do WordPress. Isso significará que, se alguém copiar seu conteúdo HTML, suas imagens não serão carregadas em seu site.
Isso também reduzirá a carga do seu servidor e o uso de largura de banda, aumentando a velocidade e o desempenho do seu WordPress.
Alternativamente, você pode adicionar uma marca d'água às suas imagens que lhe dê crédito. Isso deixará claro que o scraper roubou seu conteúdo.
Você pode aprender essas duas técnicas, bem como outras maneiras de proteger suas imagens, em nosso guia sobre maneiras de prevenir o roubo de imagens no WordPress.
6. Desencorajar a cópia manual do seu conteúdo
Embora a maioria dos scrapers use ferramentas automáticas, alguns ladrões de conteúdo podem tentar copiar manualmente todo ou parte do seu conteúdo.
Uma maneira de tornar isso mais difícil é impedi-los de copiar e colar seu texto. Você pode fazer isso dificultando a seleção do texto em seu site.
Para saber como impedir a cópia manual do seu conteúdo, consulte nosso guia passo a passo sobre como impedir a seleção e cópia/colagem de texto no WordPress.
No entanto, isso não protegerá completamente seu conteúdo. Lembre-se, usuários experientes em tecnologia ainda podem visualizar o código-fonte ou usar a ferramenta Inspect para copiar o que quiserem. Além disso, este método não funcionará com todos os navegadores da web.
Além disso, tenha em mente que nem todo mundo que copia seu texto será um ladrão de conteúdo. Por exemplo, algumas pessoas podem querer copiar o título para compartilhar sua postagem nas redes sociais.
É por isso que recomendamos que você use este método apenas se sentir que ele é realmente necessário para o seu site.
7. Tire Vantagem dos Scrapers de Conteúdo
À medida que seu blog cresce, é quase impossível parar ou acompanhar todos os scrapers de conteúdo. Ainda enviamos reclamações DMCA. No entanto, sabemos que existem muitos outros sites que estão roubando nosso conteúdo que simplesmente não conseguimos acompanhar.
Em vez disso, nossa abordagem é tentar tirar vantagem dos scrapers de conteúdo. Não é tão ruim quando você vê que está ganhando dinheiro com seu conteúdo roubado ou recebendo muito tráfego do site de um scraper.
Crie o Hábito de Linkagem Interna para Ganhar Tráfego e Backlinks de Scrapers
Em nosso guia definitivo de SEO, recomendamos que você crie o hábito de fazer links internos. Ao colocar links para seu outro conteúdo em suas postagens de blog, você pode aumentar pageviews e reduzir a taxa de rejeição em seu próprio site.
Mas há um segundo benefício quando se trata de scraping. Links internos lhe renderão valiosos backlinks das pessoas que estão roubando seu conteúdo. Mecanismos de busca como o Google usam backlinks como um sinal de classificação, então os backlinks adicionais são bons para o seu SEO.
Por último, esses links internos permitem que você roube a audiência do scraper. Blogueiros talentosos colocam links em palavras-chave interessantes, tornando tentador para os usuários clicarem. Visitantes do site do scraper também clicarão nos links, o que os levará diretamente de volta ao seu próprio site.
Linkar Automaticamente Palavras-Chave com Links de Afiliados para Ganhar Dinheiro com Scrapers
Se você ganha dinheiro em seu site com marketing de afiliados, recomendamos ativar a vinculação automática em seus feeds RSS. Isso o ajudará a maximizar seus ganhos de leitores que leem seu site apenas por meio de leitores RSS.
Melhor ainda, isso o ajudará a ganhar dinheiro com os sites que estão roubando seu conteúdo.
Simplesmente use um plugin do WordPress como ThirstyAffiliates que substituirá automaticamente palavras-chave atribuídas por links de afiliados. Mostramos como fazer isso em nosso guia sobre como vincular automaticamente palavras-chave com links de afiliados no WordPress.
Promova seu site no rodapé do seu RSS
Você pode usar o plugin All in One SEO para adicionar itens personalizados ao rodapé do seu RSS.
Por exemplo, você pode adicionar um banner que promova seus próprios produtos, serviços ou conteúdo.

A melhor parte é que esses banners também aparecerão no site do scraper.
No nosso caso, sempre adicionamos um pequeno aviso na parte inferior das postagens em nossos feeds RSS. Ao fazer isso, obtemos um backlink para o artigo original do site do scraper.
Isso permite que o Google e outros mecanismos de busca saibam que somos a autoridade. Também informa aos usuários deles que o site está roubando nosso conteúdo.
Para mais dicas, confira nosso guia sobre como controlar o rodapé do seu feed RSS no WordPress.
Esperamos que este tutorial tenha ajudado você a aprender como prevenir o scraping de conteúdo de blog no WordPress. Você também pode querer ver nosso guia definitivo de segurança do WordPress ou nossa seleção especializada dos melhores plugins de proteção de conteúdo para WordPress.
Se você gostou deste artigo, por favor, inscreva-se em nosso Canal do YouTube para tutoriais em vídeo do WordPress. Você também pode nos encontrar no Twitter e no Facebook.

Dennis Muthomi
Ok Uau, este é um guia incrivelmente completo sobre como prevenir o scraping de conteúdo de blogs! Obrigado, WPBeginner, por esclarecer essa questão frustrante.
Eu gostei especialmente da seção sobre como tornar o feed RSS mais difícil de raspar - eu não tinha considerado isso antes.
A dica sobre atrasar a aparição de posts no feed RSS é brilhante e algo que definitivamente implementarei no meu próprio blog IMEDIATAMENTE!
Moinuddin Waheed
Eu tenho muitos amigos que costumavam falar comigo sobre usar o feed RSS e criar conteúdo em seus sites dessa forma. Eu não sabia exatamente como funcionava e quais benefícios eles obtinham com isso.
Raspar o conteúdo de outros e mostrá-lo como se eles mesmos o tivessem criado é uma ofensa, mas em um mundo antiético, quem se importa. Obrigado por fazer este guia, seguindo o qual podemos impedir que nosso conteúdo seja raspado e, pelo menos, podemos usá-lo a nosso favor.
Jiří Vaněk
Obrigado pelo artigo. Tenho um blog com mais de 1200 artigos e preciso começar a abordar isso também. Obrigado pelo valioso conselho.
WPBeginner Support
De nada!
Admin
Toheeb Temitope
Obrigado pela postagem.
Mas eu posso remover ou desativar o feed RSS completamente ou há algum benefício especial nele.
Então, se eu quiser desativar o feed RSS completamente, como farei isso.
Obrigado.
WPBeginner Support
Se você deseja desativar o feed RSS do seu site, nosso guia abaixo será útil:
https://www.wpbeginner.com/wp-tutorials/how-to-disable-rss-feeds-in-wordpress/
Os feeds RSS podem ser úteis para certos usuários do seu site que usam leitores de feed RSS para saber quando um site tem novo conteúdo.
Admin
Moinuddin Waheed
É uma boa ideia saber que podemos até desativar o feed RSS, evitando assim o roubo e a raspagem potencial do conteúdo.
Embora desativar o feed RSS também tenha algumas desvantagens.
Existe alguma desvantagem de SEO em desativar o feed RSS?
Ou isso não tem nada a ver com SEO e classificação?
WPBeginner Support
Seu feed RSS não deve afetar o SEO do seu site.
Giovanni
Obrigado. Exatamente a informação que preciso. Mas os scrapers ainda usam feed RSS em 2019?
WPBeginner Support
Certamente podem e tentarão
Admin
Nergis
Ouvimos muito sobre obter conteúdo do site fazendo curadoria de conteúdo. A raspagem de conteúdo é o mesmo que curadoria de conteúdo? Se não, qual é a diferença entre os dois?
WPBeginner Support
A raspagem de conteúdo é pegar conteúdo de outros sites para colocar no seu site sem permissão, a curadoria de conteúdo normalmente é vincular a outro conteúdo dentro do conteúdo que você criou
Admin
Kingsley Felix
Estou enfrentando esses problemas, tive mais de 20 para uma de nossas marcas, depois nos mudamos para outro lugar e eles voltaram novamente.
WPBeginner Support
scrapers de conteúdo são uma luta constante, infelizmente
Admin
slevin smith
Encontrei um raspador de conteúdo muito ruim do meu blog, não só eles roubam meu conteúdo, usaram o mesmo nome para o blog de spam deles apenas separado por um – e toda a descrição, tag, basicamente tentando ser eu, está usando links no feed rss com meu blog, canal do youtube, facebook, twitter, pinterest & google plus, que aparece no blog de spam deles, também descobri que imagens png aparecem na página inicial, mas jpeg não, mas isso talvez seja apenas no blogger.
astrid maria boshuisen
Eu amo absolutamente a ideia de interligação. Terei que olhar a sugestão de RSS, pois esqueci como isso funciona exatamente, tendo focado em escrever e-books Kindle por um tempo (fale sobre raspagem de conteúdo – proteção zero lá!.. daí meu retorno à escrita de sites), mas sinto que realmente tenho um lugar para começar a proteger meu conteúdo! Obrigado!
Danni Phillips
UAU! Tanta coisa a considerar ao iniciar um blog. Meu blog tem apenas 2 semanas. Usei principalmente o WP Beginner para configurar meu blog. Tanta informação boa apresentada de uma forma que um novato pode seguir.
Não sei se isso funciona para raspagem de conteúdo, mas instalei um plugin chamado Copyright Proof. Ele desabilita o clique com o botão direito para que as pessoas não possam copiar e colar seu conteúdo.
Decidi usar este plugin, pois era um plugin recomendado para sites de autores.
Eri
seu post pode ser copiado facilmente, confie em mim.
Reo
Desabilitar a seleção é um bom método, mas ele só suporta navegadores famosos como Chrome, Safari e Opera, mas não IE e Edge.
Dave Coldwell
Mais um ótimo artigo, eu trabalho como jornalista freelancer, então vendo muitos artigos e cabe às pessoas que os compram decidirem sobre suas políticas.
Mas eu também tenho um par de blogs e sites de afiliados, então acho que talvez eu precise dar uma olhada no que está acontecendo com meu conteúdo.
Absynth
Não dar o devido crédito conta como "raspagem de conteúdo"?
Porque Jeff Starr escreveu este mesmo post no Perishable Press há mais de 5 anos:
Verifique a estrutura e a terminologia do seu artigo e compare-o com o original.
Só dizendo.
WPBeginner Support
Demos crédito a Jeff Starr. Por favor, leia o artigo real antes de apontar erros.
Admin
Absynth
Yes my apologies.. I missed that the first time through. My bad
Sieu
Eu acabei de desenvolver um tema para o Blogger e esse tema precisa de um feed completo para funcionar. Eu me preocupo com o scraping de conteúdo. Acho que se muitos scrapers usarem meu conteúdo em seus sites do Blogger, que têm o mesmo conteúdo do meu site, e os backlinks apontarem para o meu site, meu blog será considerado spam aos olhos do Google e será excluído.
Lori
Obrigado por este artigo incrível com dicas úteis! Na verdade, acabei de receber uma penalidade de "Conteúdo Duplicado" do Google. Pedi ajuda a um especialista em SEO, eles me disseram para parar de fazer scraping de conteúdo. Eles me enviaram um link de um artigo que escrevi ontem e pensaram que eu o tinha roubado de outro site. A coisa chata é que eles estavam roubando de mim, não apenas aquele artigo, mas provavelmente alguns milhares de artigos! Eles ainda estão na busca do Google, e eu não. Eu sou quem está sendo penalizado! Acontece que existem pelo menos três sites fazendo scraping do meu conteúdo, nem sei o que fazer.
Raviraj
Artigo incrível.
Concordo em parte com a maioria dos pontos que você discutiu. Na verdade, alguns dos pontos são muito bons.
Mas se o seu único negócio é baseado no conteúdo do seu site, não deveríamos ter mais cuidado com scrapers?
Não acho que o roubo de conteúdo seja bom para o proprietário do conteúdo.
Acho que todos nós deveríamos pensar em adotar algumas medidas preventivas em vez de reativas. Você pode considerar usar o ShieldSquare, uma solução de proteção de conteúdo para impedir o scraping de conteúdo permanentemente.
Andre
Sei que este é um artigo antigo, mas a fonte que é NOTÓRIA por permitir o scraping de conteúdo é o WordPress com seu recurso “Press This”. Eles basicamente incentivam isso.
Sara
Acho que finalmente encontrei a resposta para o meu problema. Tenho pensado que alguém tem roubado minhas histórias e as transformado em histórias “novas”. Pensei que alguém estava atrás de mim ou que eu estava perdendo a cabeça. Eu estava quase perdendo a cabeça pensando assim. Paranoia. Preocupado que alguém estivesse ouvindo minhas ligações telefônicas particulares. Quando, na verdade, todas as informações vieram diretamente do meu blog! Este artigo pode ter salvado minha vida. Literalmente. Não estou nem brincando porque eu estava tão com medo de estar ficando louco e tentando falar seletivamente sobre isso com amigos, para obter feedback ou apoio e sendo olhado como se eu fosse louco e precisasse ir para o hospício por um tempo. Este artigo faz com que o que tem acontecido comigo faça total sentido. Obrigado! Estou tão sobrecarregado de alívio.
John
Obrigado por algumas dicas, mas uma boa parte deste artigo não é muito útil. A maioria dos 'scrappers' não são 'scrappers' cegos, o conteúdo é geralmente sugado, olhado por um olho humano e depois publicado. O que significa que, mesmo dedicando um minuto para olhar um artigo, o 'spam kid' é capaz de publicar centenas de artigos copiados por dia. O problema de backlinks é muito fácil de contornar para 'content scrappers', pois os importadores de feed têm opções de pré-processamento e geralmente as configuram para remover links do corpo. Além disso, não vejo como transformar RSS em resumo pode ajudar em alguma coisa, os importadores de feed usam apenas o RSS para pegar o link do novo conteúdo e, a partir daí, eles seguem o esqueleto do seu HTML, que você configurou bem com tags de imagem, título, link, etc. para a conveniência do Google e extraem o conteúdo com muita facilidade.
Obviamente, bloquear o IP é uma ótima solução. DMCA geralmente é uma perda de tempo; leva tempo para formular e hosts estúpidos levam tempo para responder (já que os spammers escolhem esses hosts especificamente porque eles são frouxos em atividades semelhantes a spam). De todos, o Google é o mais frustrante; não importa quantos relatórios você envie para eles, eles nunca tomam providências sobre qualquer conteúdo roubado no qual eles exibem anúncios e ainda classificam o site de lixo-spam bem nos resultados de pesquisa, apesar de ser fácil para seus sistemas detectarem cópias.
Evie
John, eu concordo plenamente com você. O Google ficou bravo comigo, afirmando que eu era a pessoa que estava roubando meu próprio conteúdo. Essa pessoa roubou meu conteúdo e o publicou no Blogger. Que audácia. Precisa haver uma solução para isso. Neste ponto, eu apenas bloqueio!
Equipe WPBeginner
Então, talvez a melhor maneira para você seja mudar a licença e enviar agressivamente notificações de remoção para os 'content scrappers'. Enquanto isso, continue focando em criar conteúdo de qualidade.
Philipp D
Olá,
Acabei de me deparar com seu artigo enquanto procurava respostas para algumas das minhas preocupações.
Eu, junto com alguns amigos, lançamos um site sobre DIY na Itália, há alguns meses, que está funcionando inesperadamente bem, com classificações altas, muito tráfego, etc. Ainda assim, o PR é 0. Nosso conteúdo tem uma licença Creative Commons 4.0, porque realmente acreditamos que é uma boa maneira de compartilhar conteúdo. NO ENTANTO:
Há algum tempo notamos um site PR4 com muito tráfego copiando nossos principais artigos, linkando de volta para nossa página inicial (o que não é o que se deve fazer com uma licença CC, mas ainda assim está tudo bem). Os problemas são estes:
1. há um monte de sites menores raspando o conteúdo deles (nosso) e linkando de volta para eles em vez do nosso site
2. o site PR4 e alguns dos sites menores de alguma forma se classificam melhor do que o nosso site
3. há fortes sugestões de que uma penalidade do Google em NOSSO conteúdo ocorreu, pois ele tem um PR menor do que a maioria das outras páginas (que estão online há muito tempo).
Estamos em contato com o site PR4 e está tudo bem para nós se eles usarem nosso conteúdo, desde que linkem de volta para o artigo original (esse é todo o ponto da licença CC), MAS estamos tentando encontrar uma solução para evitar penalidades do Google: o rel canonical faria o trabalho? Qual é a sua opinião? Deveríamos mudar nossa licença e ser mais agressivos em relação à cópia de conteúdo?
Obrigado!
WPBeginner Support
Philipp, se você ainda não o fez, crie uma conta no Google Search Console para o seu site e envie seu sitemap. Isso ajuda a identificar problemas no seu site, como ele está performando nas buscas e você pode usar muitas outras ferramentas. Também ajuda o Google a entender melhor onde alguns conteúdos apareceram pela primeira vez.
Não achamos que mudar a licença impedirá que os raspadores de conteúdo copiem seu material.
Admin
Philipp
Olá! Sim, configuramos uma conta no Google Search Console, vinculamos o site à nossa página do Google+ e a maioria dos autores aos seus perfis do Google+ usando tags de editor e autor. A autoria parece estar funcionando bem nos snippets de pesquisa, mas até agora não parece fazer muita diferença no caso de conteúdo raspado. Páginas com PR mais alto raspando nosso conteúdo ainda estão no topo...
Garratt
Uma das melhores maneiras de não ser afetado por isso é fazer ping de forma eficaz. Fazer ping e enviar páginas manualmente para Google e Bing faz com que os spiders acessem seu site RAPIDAMENTE. Eles indexam as páginas o mais rápido possível, e então, quando encontram conteúdo duplicado em outros sites, consideram você como a autoridade.
No entanto, tenho a suspeita de que isso pode ter a ver com o PageRank... Mas Matt Cutts (equipe de webspam do Google) defendeu o uso de pingers sobre este tópico. Só não tenho certeza do quanto posso confiar no que ele diz.
Para adicionar mais serviços, vá em Configurações -> Configurações de Escrita -> Serviços de Atualização -> Abra o link "Serviços de atualização" em uma nova aba e copie todos os serviços de atualização. De volta ao WordPress, cole-os na lista de pings e clique em salvar.
Abra uma conta no Bing Webmaster Tools para envio manual de URLs para indexação rápida.
Chris Backe
Recentemente descobri um cara que consegue pegar um feed RSS do meu blog – lembre-se que meu blog é um feed de resumo com a linha ‘Este post foi encontrado primeiro em’ do Yoast. Enviei uma mensagem de agradecimento ao cara, basicamente dizendo a ele que ele está me dando backlinks, E dizendo ao Google que ele está copiando meu site (já que eles podem olhar os carimbos de data/hora para ver qual foi publicado primeiro).
Verifiquei 2 dias depois, e todo o meu material tinha desaparecido misteriosamente…
Equipe Editorial
Hah, sim. A maioria desses golpistas não é muito inteligente, rs. Que bom que você consertou.
-Syed
Admin
Ian
Alguém já viu ou usou este plugin anti-scraping do WP http://wordpress.org/plugins/wordpress-data-guards/ parece sólido, mas pouquíssimas pessoas o baixaram? Não sou técnico – então apreciaria opiniões sobre seu valor ou efeito no SEO
Equipe Editorial
Você definitivamente pode usar esse plugin. Ele bloqueia cliques com o botão direito, atalhos de teclado para copiar, lista negra de IP, etc. Tudo isso impede o scraping manual, no entanto, a maioria dos scrapers de conteúdo usa ferramentas automáticas. Portanto, nenhum deles seria super útil.
Admin
Ian
Obrigado pela sua resposta – a versão pro afirma que protege contra ataques de bots, então presumo que isso signifique bots de scraping? o preço me impede de instalá-lo em todos os meus sites, mas posso usá-lo em um apenas para ver o quão bem funciona
Mark Conger
Este é um dos, senão o melhor, artigo “para iniciantes” que já encontrei na web.
Depois de lê-lo, sinto como se tivesse acabado de ter uma reunião com um consultor de segurança.
Estou aplicando essas técnicas agora mesmo!
Obrigado. Agora sou um seguidor deste site.
Equipe Editorial
Thanks for the very kind words Mark
Admin
Neil Ferree
Isso só aconteceu comigo algumas vezes. Um blogueiro de fora dos EUA pegou meu post palavra por palavra e postou em seu site como se fosse dele. Como era apenas um post com meu vídeo do YT incorporado, não me preocupei muito com os detalhes, já que o CTR do meu canal teve um bom aumento de visitas de qualquer forma.
Edward B. Rockower, Ph.D.
Só quero dizer obrigado, obrigado e obrigado!
Acabei de descobrir seu site hoje, li apenas 3 artigos até agora (incluindo este)… mas estou extremamente impressionado.
Só estou blogando há 5 semanas, mas acho viciante, especialmente vendo o tráfego crescente e o engajamento do usuário como resultado dos meus esforços. Ver 100 visitantes no meu site de blog em um dia, e poder ver quem os está referindo, me motiva a aprender tudo o que posso para aumentar o marketing de mídia social e as interações com novos visitantes.
Atenciosamente,
@earthlingEd
Debbie Gilbert
Adoro seu site e fiquei chocado ao ler sobre scraping de conteúdo! Existe alguma maneira de criar uma marca d'água de alguma forma que não distraia seus leitores, mas que seja óbvia para o site do scraper?
Equipe Editorial
Você pode fazer proteção contra hotlinking, entre outras coisas, para desativar imagens em domínios que não estão na lista de permissões.
Admin
Usman
É legal postar o artigo completo de outro site e escrever o nome do site de origem na parte inferior do artigo?
Equipe Editorial
Não.
Admin
Usman
E se colocarmos um link direto para o artigo na parte inferior?
Dan
Ainda não é bom, a menos que o proprietário aprove
Abdul Karim
Existe alguma maneira / plugin
alguém está copiando minhas fotos de moda e postando em seus fóruns
mas quando clico na imagem naquele fórum. ela abre em uma nova janela
quero algum plugin ou script que se ele copiar minhas imagens quando alguém clicar nessas imagens, então essa pessoa seja redirecionada para meu post relacionado a essas imagens?
algum plugin ainda? link com imagens de post?
Equipe Editorial
Nenhum que saibamos.
Admin
Abdul Karim
Eu farei isso, apenas mude
quando alguém carrega qualquer imagem no lado direito, ele mostra o link da URL
a configuração padrão é arquivo de mídia
você tem que mudar isso em url do anexo
então pronto!
quando alguém copia as imagens do seu blog. isso dá um backlink para a sua página postada
Anton
Se alguém pegar um artigo escrito em inglês e traduzi-lo, usando a cabeça e não o Google Tradutor, para outra língua, digamos porque a maioria das pessoas no país dessa outra língua não entende inglês. Você os apontaria como scrapers de qualquer forma? Ou qual é a sua opinião sobre isso?
Para mim, pessoalmente, não acho isso extremamente problemático, é claro que acredito que o "autor" deve linkar de volta para o artigo original, esclarecendo que seu artigo é uma tradução.
Equipe Editorial
A menos que você tenha permissão escrita do autor, então tecnicamente é scraping.
Admin
Greg
Este é um artigo tremendo. Depois de lê-lo, espero que você não me veja como um scraper de conteúdo. Usei trechos seus (curados), sempre tenho o 'Leia o Artigo Completo' e seu link de página lá e também muitos dos meus posts são tuitados e incluo sua conta do Twitter neles. Se você não quiser isso, por favor, me avise e eu o removerei com prazer. Sou muito grato pelo seu trabalho e quero compartilhá-lo com meus visitantes. não se destina a roubar seus visitantes, mas a ser capaz de dar bom valor aos meus e enviá-los para você para mais.
Equipe Editorial
Greg, desde que você exiba apenas um trecho e envie o usuário para o nosso site para ler o artigo completo, então não é scraping. Como você disse, é curadoria. Muitos sites populares fazem isso (ou seja, reddit, digg, etc).
Admin
ryan
Meu site tem muitos artigos originais de segurança e alguns foram raspados. O site que me raspou estava no Yahoo! News com meu artigo e as pessoas comentavam nele. Lidei com o problema comentando e dizendo que eu era o autor original e respondi a alguns comentários. Eu tinha links internos, foi assim que descobri tão rapidamente. Um truque sobre o qual vou escrever é fazer com que as pessoas que vêm de um site de raspagem vejam um banner ou imagem dizendo o que aconteceu. A sugestão de solicitação interminável parece ilegal sob a lei de fraude e abuso de computadores. Eu não sou advogado. Eu apenas escrevo sobre segurança, então preciso conhecer as leis de segurança para computadores.
Não gostei que seu formulário não aceitou o e-mail da minha empresa como um e-mail válido.
Equipe Editorial
Desculpe Ryan, por nosso formulário não ter aprovado o e-mail da sua empresa. Não tenho certeza do que aconteceu, mas ele deve aprovar todos os e-mails válidos.
Admin
andre
como usar este código, você pode fornecer mais detalhes ou tutoriais, obrigado
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
Equipe Editorial
Você teria que editar o arquivo .htaccess.
Admin
Ali Rashid
boa e informativa escrita, gosto da sua abordagem de tirar vantagem dos raspadores, no entanto, bloquear um IP pode nem sempre funcionar; um raspador sério frequentemente usaria uma lista de proxies anônimos ou gratuitos, nesse caso, colocar um IP em lista negra pode não ser uma solução eficaz, pois o raspador o alteraria com frequência. Uma solução é escrever um pequeno script que detecte qualquer tráfego anormal de um determinado IP, digamos mais de 20 acessos/segundo e o desafie com um captcha se não houver resposta, coloque o IP em uma lista negra temporária por cerca de 30 minutos. você pode reforçá-lo com outro javascript que detecta movimento do mouse, toque ou teclado após alguns acessos, se nenhum teclado, mouse ou toque for detectado, você pode novamente colocar o raspador na lista negra temporária, funcionou como um encanto para nós.
Arihant
Suas soluções são boas o suficiente para scrapers de conteúdo.
Mas e se as pessoas estiverem copiando e colando manualmente o conteúdo em suas páginas do Facebook.
Implementamos o tynt, mas eles removem o link de volta para o artigo original, alguma ideia de como você pode lidar com esse tipo de situação.
Equipe Editorial
Se as pessoas realmente quiserem roubar seu conteúdo, não há nada que você possa fazer a respeito. É uma triste verdade, mas é uma verdade.
Admin
Garratt
Na verdade, existe um plugin criado pela IMWealth Builders, provavelmente o único dos plugins deles que eu gosto, o resto é bem lixo e envolve raspar sites de Ecommerce (CB, Azon, CJ etc) para comissões de afiliados.
Chama-se “Covert Copy Traffic” e na verdade permite que você defina qualquer texto antes ou depois de um determinado número de palavras. Então, digamos que eu defina para postar “Este conteúdo foi retirado de xxxxxxx.com” após 18 palavras. Então, sempre que alguém copiasse/colasse mais de 18 palavras do site, ele adicionaria esse texto na parte inferior; 17 palavras ou menos, ele não faria nada.
Estas foram apenas configurações de exemplo. Plugin muito útil, funciona maravilhosamente. Tentei de todas as formas que pude pensar para contornar a inserção de texto, mas parece impossível. O plugin é forte demais.
Equipe Editorial
Parece que você está descrevendo este tutorial aqui:
https://www.wpbeginner.com/wp-tutorials/how-to-add-a-read-more-link-to-copied-text-in-wordpress/
Garratt
Sim, é isso mesmo. Você pode usar esse script para dizer “Conteúdo veio do seuwebsite.com” em vez de “Leia Mais”.
Jennae Barker
É verdade que os programas deles da Amazon etc. são scrapers – se for o caso – cometi um grande erro em uma compra deles – felizmente, ainda não usei.
Garratt
Sim Jennae, é legal em termos de a Amazon permitir que você copie conteúdo de suas páginas. Ajuda nas vendas, os afiliados são o motivo pelo qual a Amazon é a Amazon.
No entanto, o Google e outros motores de busca (que importam) apenas o consideram um “site de afiliados fraco”, ou seja, sem conteúdo original. Portanto, eles não classificam, a menos que haja uma certa porcentagem de conteúdo original no site também.
Um scraper, nada mais é do que um spider/crawler, geralmente ele roda em modo socket, no entanto, alguns rodam em navegador.
Só porque está rotulado como um scraper não o torna ruim por si só, eu uso scrapers e spiders regularmente para verificar meu site em busca de links não naturais, verifico outros para análise de concorrência e pesquisa de palavras-chave e uma variedade de outras tarefas que não prejudicam ninguém, mas me beneficiam.
No entanto, eu não gosto nem condeno ninguém raspando com o propósito de violação de direitos autorais. Que é sobre o que esta discussão realmente trata.
O Google usa o spider “Google Bot” para indexar a web junto com centenas de outros motores de busca, existem milhares, centenas de milhares de spiders rastreando a web para uma variedade de propósitos. O Google também raspa sites para “armazená-los em cache”. Assim como muitos serviços importantes que precisamos, como os arquivos históricos da web.
Troy
Estou prestes a começar a procurar agressivamente por sites que estão copiando meu conteúdo e a ter o conteúdo removido. Eu sei que isso está impactando como meu site classifica, então tenho que fazer algo a respeito. Alguma ideia de quanto precisa ser copiado antes que você possa enviar notificações DMCA? Um parágrafo em um artigo é suficiente para poder legalmente chamá-lo de plágio?
Equipe Editorial
Não somos especialistas jurídicos aqui, então nos abstemos de dar conselhos jurídicos neste site.
Admin
Dallas
Você deixa de mencionar que qualquer autoblogger que se preze removerá os links e inserirá seus próprios links de afiliados em vez de usar seu conteúdo como ele vem, então sua abordagem para obter links deles geralmente falhará.
Equipe Editorial
Existe autoblogger que se preze? Se eles tiverem algum autorrespeito, eles escreverão conteúdo original.
Admin
David Halver
Concordo! Existe um "Lugar Quente" muito especial perto do centro da Terra para Spammers, Scrapers e Auto-Bloggers...
VeryCreative
Acho que a melhor ideia é incluir links de afiliados.
Após a última atualização do Pinguim, meu site foi penalizado. Comecei a analisá-lo e descobri que muitos outros sites copiaram meu conteúdo. Não sei por quê, mas esses sites têm melhor classificação nos motores de busca, usando meu conteúdo.
Equipe Editorial
Não apenas links de afiliados. Inclua o máximo de links internos possível. Porque se esses sites estiverem linkando de volta para suas outras páginas, o Google SABERÁ que você é o site de autoridade.
Admin
Bayer
Olá Equipe wpbeginner.com. Eu realmente aprecio este artigo, mas tenho uma pergunta em relação a ter links internos em suas páginas/posts.
Suponho que você queira dizer links 'absolutos'?? Caso contrário, isso pode não funcionar a seu favor, uma vez que o conteúdo tenha sido raspado... Bem, até agora eu sempre usei links relativos, como você também faz, suponho. Qual é o melhor método? Abraços!
Equipe Editorial
Sempre usamos links absolutos porque isso mantém as coisas funcionando sem problemas.
Gautam Doddamani
antes de mais nada, seu tutorial é simplesmente fantástico.. parabéns! apenas uma dúvida, como saber se um site é um site scraper? usei seu método e descobri que o Google Webmaster Tools está relatando que há 262 links para o meu site e há muitos sites que não sabem disso... assim, estou em confusão... como verificar se um site é um site scraper ou um site de autoridade?? existe alguma ferramenta para isso? obrigado desde já!
Equipe Editorial
Confie em mim, nenhum site de autoridade jamais ROUBARÁ seu artigo palavra por palavra.
Admin
Gautam Doddamani
sim, isso é verdade... mas e se eu não quiser encontrar meu artigo nesses sites de scraping... eu sei que meu artigo está lá, pois está sendo relatado pelo GWT e eu só quero bloquear esse endereço IP inserindo essas regras rewritecond no arquivo htaccess... não quero perder meu tempo procurando esses sites ruins pelo meu artigo ou solicitando que eles removam meu artigo.
Nathan
Obrigado por este artigo – e pelo seu site em geral!. Eu gosto tanto disso que me perguntei como manteria o controle deste recurso. E agora vejo as opções de assinatura abaixo. Que maneira de receber um comentário!
Yeasin
Prevenir o scraping de conteúdo é quase impossível. Não acho que o content scrapper me prejudique de alguma forma. Eles estão apenas me votando que tenho conteúdos de alta qualidade. O Google é inteligente o suficiente para detectar os editores originais. Ninguém deveria se preocupar.
mrwindowsx
realmente informativo, se você usa cloudflare, há novos aplicativos chamados ScrapeShield, e você pode facilmente proteger e rastrear/monitorar o conteúdo do seu site gratuitamente.
wpbeginner
@mrwindowsx Ah, eu não sabia disso. Obrigado por apontar.
Gautam Doddamani
uau, isso é ótimo cara… você usa cloudflare? eu só queria sua opinião porque nunca usei esse serviço de cdn.. eu sei que é grátis e tudo mais, mas acho que o tempo de carregamento do meu site já é ótimo que eu não precisei dele… agora que o scrapeshield está lá, acho que definitivamente vou conferir… quais outros aplicativos teremos se começarmos a usar cloudflare?? obrigado
Matt
Olá,
Na minha opinião, o @cloudflare é realmente incrível. Tenho dois sites nele (o meu blog e o da minha esposa) e ele é incrivelmente rápido, mas isso sem mencionar toda a segurança, análise de tráfego, suporte a aplicativos (instalações automáticas de aplicativos) que eles oferecem.
Sei que todas as configurações de hospedagem são diferentes, mas tenho os dois sites rodando no Media Temple (gs)Grid Service. Posso dizer honestamente que nossos sites rodam mais rápido agora do que quando eu usava o W3 Total Cache e o Amazon S3 como meu CDN. Na verdade, eu ainda uso o W3TC no meu site para minimizar e cachear meu conteúdo, mas uso o CloudFlare para serviços de CDN, DNS e segurança.
Recomendo muito… Na verdade, eu apreciaria muito se alguém do WPBeginner nos desse sua opinião aprofundada e experiente sobre os serviços da CloudFlare. Para mim, eles têm sido incríveis!
shivabeach
Você também pode obter um plugin cujo nome não me lembro no momento que faz a busca do Google para você. Ele também adiciona um código ao seu RSS que o aplicativo procura.
MuhammadWaqas
Ótimo post, sei que existem muitos autoblogs buscando meu conteúdo. Embora após a atualização do Penguin meu site esteja recebendo 3 vezes mais tráfego do Google do que antes. Mas depois de ler sobre muitos desastres ou geradores de conteúdo original, estou preocupado com futuras penalidades do Google.
É minha experiência que geralmente o Google respeita sites de alto PR com bons backlinks de autoridade. mas o site tem apenas um ano e o PR é inferior a 5.
Eu tento entrar em contato com os scrappers, mas a maioria deles não tem formulários de contato. então acho que vou tentar aquele método htaccess para bloquear os endereços IP dos scrappers. Mas, por outro lado, alguns deles podem usar o FeedBurner.
Garratt
Pessoalmente, eu não me preocupo com RSS, pois a maioria dos usuários não o utiliza. Em vez disso, forneça um feed de newsletter. Ele faz o mesmo truque + você recebe e-mails para marketing (se feito corretamente). A maioria das pessoas é mais propensa a assinar um blog do que a marcar um RSS na minha experiência. Portanto, é melhor desativar o RSS. Você pode fazer isso usando WordPress SEO by Yoast e vários outros plugins.
Então, se você também implementar as estratégias mencionadas acima, tudo ficará bem. Remova todos os cabeçalhos desnecessários RSD WLM etc.
Ainda haverá alguns capazes de raspar efetivamente, mas esses truques diminuirão muito o número deles.