Tutorial WordPress affidabili, quando ne hai più bisogno.
Guida per principianti a WordPress
WPB Cup
25 Milioni+
Siti web che utilizzano i nostri plugin
16+
Anni di esperienza con WordPress
3000+
Tutorial WordPress di esperti

Guida per principianti alla prevenzione del scraping di contenuti del blog in WordPress

Immagina di lavorare sodo per scrivere una bella storia o un articolo, solo per scoprire che qualcun altro se ne appropria. Questo è ciò che accade quando le persone rubano i contenuti del tuo sito web.

Il furto di contenuti, o 'scraping', è un grosso problema per i proprietari di siti web. Queste persone sono ladri che copiano il tuo lavoro, lo usano sui propri siti e a volte fingono persino che sia loro. Questo può essere davvero frustrante e ingiusto.

In questo articolo, tratteremo cos'è lo scraping dei contenuti del blog, come puoi ridurre e prevenire lo scraping dei contenuti e persino come sfruttare gli scraper di contenuti a tuo vantaggio.

Guida per principianti per prevenire il furto di contenuti del blog in WordPress

Cos'è lo scraping dei contenuti del blog in WordPress?

Lo scraping dei contenuti del blog si verifica quando i contenuti vengono prelevati da numerose fonti e ripubblicati su un altro sito. Di solito, ciò avviene automaticamente tramite il feed RSS del tuo blog.

Sfortunatamente, è molto facile e molto comune che i contenuti del tuo blog WordPress vengano rubati in questo modo. Se ti è successo, allora capisci quanto possa essere stressante e frustrante.

A volte, i tuoi contenuti verranno semplicemente copiati e incollati direttamente su un altro sito web, inclusa la tua formattazione, immagini, video e altro.

Altre volte, i tuoi contenuti verranno ripubblicati con attribuzione e un link al tuo sito web, ma senza il tuo permesso. Sebbene questo possa aiutare la tua SEO, potresti voler mantenere i tuoi contenuti originali ospitati solo sul tuo sito.

Perché gli scraper di contenuti rubano contenuti?

Alcuni dei nostri utenti ci hanno chiesto perché gli scraper rubano contenuti. Di solito, la motivazione principale del furto di contenuti è trarre profitto dal tuo duro lavoro:

  • Commissioni di affiliazione: Marketer affiliati disonesti potrebbero usare i tuoi contenuti per portare traffico al loro sito tramite i motori di ricerca al fine di promuovere i loro prodotti di nicchia.
  • Generazione di lead: Avvocati e agenti immobiliari potrebbero pagare qualcuno per aggiungere contenuti e acquisire autorevolezza nella loro comunità, senza rendersi conto che vengono copiati da altre fonti.
  • Entrate pubblicitarie: I proprietari di blog potrebbero copiare contenuti per creare un centro di conoscenza in una determinata nicchia 'per il bene della comunità' e poi inondare il sito di pubblicità.

È possibile impedire completamente lo scraping dei contenuti?

In questo articolo, ti mostreremo alcuni passaggi che puoi intraprendere per ridurre e prevenire lo scraping dei contenuti. Ma sfortunatamente, non c'è modo di fermare completamente un ladro determinato.

Ecco perché abbiamo concluso questo articolo con una sezione su come puoi trarre vantaggio dagli scraper di contenuti. Sebbene tu non possa sempre fermare un ladro, potresti essere in grado di ottenere traffico e entrate attraverso i contenuti che ti hanno rubato.

Cosa dovresti fare quando scopri che qualcuno ha copiato i tuoi contenuti?

Poiché non è possibile fermare completamente gli scraper, potresti un giorno scoprire che qualcuno sta usando contenuti che ha rubato dal tuo blog. Potresti chiederti cosa fare quando succede.

Ecco alcuni approcci che le persone adottano quando si occupano di scraper di contenuti:

  • Non fare nulla: Puoi passare molto tempo a combattere gli scraper, quindi alcuni blogger popolari decidono di non fare nulla. Google vede già i siti conosciuti come autorevoli, ma questo non è vero per i siti più piccoli. Quindi, secondo noi, questo approccio non è sempre il migliore.
  • Rimozione: Puoi contattare lo scraper e chiedergli di rimuovere il contenuto. Se rifiutano, invii una richiesta di rimozione. Puoi imparare come fare nella nostra guida su come trovare e rimuovere facilmente contenuti rubati in WordPress.
  • Sfruttare: Mentre lavoriamo attivamente per far rimuovere i contenuti copiati da WPBeginner, utilizziamo anche alcune tecniche per ottenere traffico e guadagnare dagli scraper. Puoi imparare come fare nella sezione 'Sfruttare gli scraper di contenuti' qui sotto.

Detto questo, diamo un'occhiata a come prevenire lo scraping dei blog in WordPress. Poiché questa è una guida completa, abbiamo incluso un indice per una navigazione più semplice:

  1. Registra il nome e il logo del tuo blog per copyright o marchio.
  2. Rendi il tuo feed RSS più difficile da copiare.
  3. Disabilita trackback e pingback.
  4. Blocca l'accesso dello scraper al tuo sito WordPress.
  5. Prevenire il furto di immagini in WordPress.
  6. Scoraggiare la copia manuale dei tuoi contenuti.
  7. Sfrutta gli scraper di contenuti

Le leggi sul copyright e sui marchi proteggono i tuoi diritti di proprietà intellettuale, il tuo marchio e la tua attività da molte sfide legali. Ciò include il plagio e l'uso illegale del tuo materiale protetto da copyright o del nome e logo del tuo marchio.

Dovresti visualizzare chiaramente un avviso di copyright sul tuo sito. Sebbene i contenuti del tuo sito web siano automaticamente coperti dalle leggi sul copyright, la visualizzazione di un avviso farà sapere che i tuoi contenuti sono protetti da copyright e che non possono utilizzare le tue proprietà protette per scopi commerciali.

Visualizza un avviso di copyright sul tuo sito web

Ad esempio, puoi aggiungere un avviso di copyright con una data dinamica al footer del tuo WordPress. Questo manterrà aggiornato il tuo avviso di copyright.

Questo potrebbe scoraggiare alcuni utenti dal rubarlo. Aiuterà anche nel caso in cui tu debba inviare una lettera di diffida o presentare un reclamo DCMA per rimuovere i tuoi contenuti rubati.

Puoi anche richiedere la registrazione del copyright online. Questo processo può essere complicato, ma fortunatamente ci sono servizi legali a basso costo che possono aiutare piccole imprese e privati.

Scopri come nella nostra guida su come registrare il nome e il logo del tuo blog come marchio e copyright.

2. Rendi il tuo feed RSS più difficile da copiare

Poiché lo scraping dei contenuti del blog viene solitamente eseguito automaticamente tramite il feed RSS del tuo blog, diamo un'occhiata ad alcune modifiche utili che puoi apportare al tuo feed.

Non includere il contenuto completo del post nel tuo feed RSS di WordPress

Puoi includere solo un riepilogo di ogni post nel tuo feed RSS invece del contenuto completo. Questo include un estratto e anche metadati come la data, l'autore e la categoria.

C'è sicuramente un dibattito nella comunità dei blogger sul fatto di avere feed RSS completi o feed di riepilogo. Non entreremo in questo ora, tranne per dire che uno dei vantaggi di avere solo un riepilogo è che aiuta a prevenire il furto di contenuti.

Puoi cambiare le impostazioni andando su Impostazioni » Lettura nel tuo pannello di amministrazione di WordPress. Devi selezionare l'opzione 'Estratto' e poi fare clic sul pulsante 'Salva modifiche'.

I feed RSS possono contenere il testo completo o un estratto di ogni post

Ora, il feed RSS mostrerà solo un estratto del tuo articolo. Se qualcuno sta rubando il tuo contenuto tramite il tuo feed RSS, allora otterrà solo il riepilogo, non il post completo.

Se desideri modificare il riepilogo, puoi consultare la nostra guida su come personalizzare gli estratti di WordPress.

Ottimizza il tuo feed RSS per prevenire il furto di contenuti

Ci sono altri modi per ottimizzare il tuo feed RSS di WordPress per proteggere i tuoi contenuti, ottenere più backlink, aumentare il traffico web e altro ancora. Uno dei modi migliori è ritardare la pubblicazione dei post nel feed RSS.

Il vantaggio è che quando ritardi la pubblicazione dei post nel tuo feed RSS, dai ai motori di ricerca il tempo di scansionare e indicizzare i tuoi contenuti prima che appaiano altrove, come sui siti web degli scraper. I motori di ricerca vedranno quindi il tuo sito come l'autorità.

Il modo più sicuro e semplice per farlo è usare WPCode perché ha una ricetta che aggiunge automaticamente il codice personalizzato corretto a WordPress.

Aggiungi uno snippet usando WPCode

Per istruzioni dettagliate, consulta la nostra guida su come ritardare la visualizzazione dei post nel feed RSS di WordPress.

3. Disabilita Trackback, Pingback e REST API

Nei primi giorni del blogging, i trackback e pingback sono stati introdotti come un modo per i blog di notificarsi a vicenda sui link. Quando qualcuno linka a un post sul tuo blog, il suo sito web invierà automaticamente un ping al tuo.

Questo pingback apparirà quindi nella coda di moderazione dei commenti del tuo blog con un link al loro sito web. Se lo approvi, otterrai un backlink e una menzione dal tuo sito.

Questo dà allo spammer un incentivo a scansionare il tuo sito e inviare trackback. Fortunatamente, puoi disabilitare trackback e pingback per dare agli scraper un motivo in più per non rubare i tuoi contenuti.

Disabilitare Trackback e Pingback in WordPress

Per maggiori informazioni, consulta la nostra guida su come disabilitare i trackback su tutti i futuri post. Potresti anche voler imparare come disabilitare trackback e ping su post di WordPress esistenti.

Disabilita la REST API di WordPress

Oltre a trackback e pingback, consigliamo anche di disabilitare la REST API di WordPress, poiché può rendere più facile per gli spammer scansionare i tuoi contenuti.

Abbiamo una guida dettagliata su come puoi disabilitare la REST API di WordPress.

Tutto quello che devi fare è installare e attivare il plugin gratuito WPCode e utilizzare il loro snippet predefinito per disabilitare la REST API.

4. Blocca l'accesso dello scraper al tuo sito web WordPress

Un modo per impedire agli scraper di rubare i tuoi contenuti è togliere loro l'accesso al tuo sito web. Puoi farlo manualmente bloccando il loro indirizzo IP, ma la maggior parte degli utenti troverà più facile utilizzare un plugin di sicurezza come un firewall per applicazioni web.

Blocca lo scraper utilizzando un plugin di sicurezza (consigliato)

Bloccare gli scraper manualmente è complicato e richiede molto lavoro. Soprattutto perché molti tentativi di hacking e attacchi vengono effettuati utilizzando una vasta gamma di indirizzi IP casuali da tutto il mondo. È quasi impossibile tenere il passo con tutti questi indirizzi IP casuali.

Ecco perché hai bisogno di un Firewall per applicazioni web (WAF) come Wordfence o Sucuri. Questi agiscono come uno scudo tra il tuo sito web e tutto il traffico in entrata, monitorando il traffico del tuo sito web e bloccando le minacce comuni alla sicurezza prima che raggiungano il tuo sito WordPress.

Per il sito web WPBeginner, utilizziamo Sucuri. È un servizio di sicurezza per siti web che protegge il tuo sito web da tali attacchi utilizzando un firewall per applicazioni web.

In sostanza, tutto il traffico del tuo sito web passa attraverso i server del servizio di sicurezza, dove viene esaminato per attività sospette. Bloccano automaticamente gli indirizzi IP sospetti dal raggiungere il tuo sito web del tutto. Vedi come Sucuri ci ha aiutato a bloccare 450.000 attacchi WordPress in 3 mesi.

Blocca o reindirizza manualmente l'indirizzo IP dello scraper

Gli utenti avanzati potrebbero anche voler bloccare manualmente l'indirizzo IP di uno scraper. Questo richiede più lavoro, ma puoi individuare specificamente l'indirizzo dello scraper una volta che lo conosci. Lo sviluppatore web Jeff Star suggerisce questo approccio quando scrive su come gestisce gli scraper di contenuti.

Nota: Aggiungere codice ai file del sito web può essere pericoloso. Anche un piccolo errore può causare gravi problemi al tuo sito. Ecco perché raccomandiamo questo metodo solo agli utenti avanzati.

Puoi trovare l'indirizzo IP dello scraper visitando i 'Log di accesso grezzi' nella dashboard di cPanel del tuo account di  web hosting. Devi cercare gli indirizzi IP con un numero insolitamente elevato di richieste e tenerne traccia, ad esempio copiandoli in un file di testo separato.

Bloccare l'indirizzo IP dello scraper

Suggerimento: Devi assicurarti di non bloccare te stesso, gli utenti legittimi o i motori di ricerca dall'accedere al tuo sito web. Copia un indirizzo IP dall'aspetto sospetto e utilizza strumenti online di ricerca indirizzi IP per saperne di più.

Una volta che sei sicuro che l'indirizzo IP appartenga a uno scraper, puoi bloccarlo utilizzando lo strumento 'Blocco IP' di cPanel o aggiungendo codice come questo nel tuo file .htaccess principale:

Deny from 123.456.789

Assicurati di sostituire l'indirizzo IP nel codice con quello che desideri bloccare. Puoi bloccare più indirizzi IP inserendoli sulla stessa riga, separati da spazi.

Per istruzioni dettagliate, consulta la nostra guida su come bloccare indirizzi IP in WordPress.

Invece di bloccare semplicemente gli scraper, Jeff suggerisce di inviare loro feed RSS fittizi. Potresti creare feed pieni di Lorem Ipsum e immagini fastidiose o addirittura reindirizzarli al loro stesso sito web, causando un loop infinito e bloccando il loro server.

Per reindirizzarli a un feed fittizio, dovrai aggiungere codice come questo al tuo file .htaccess:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

5. Impedire il furto di immagini in WordPress

Non sono solo i tuoi contenuti scritti che devi proteggere. Dovresti anche impedire il furto di immagini in WordPress.

Come per il testo, non c'è modo di impedire completamente alle persone di rubare le tue immagini, ma ci sono molti modi per scoraggiare il furto di immagini su un sito web WordPress.

Ad esempio, puoi disabilitare l'hotlinking delle tue immagini WordPress. Ciò significa che se qualcuno copia i tuoi contenuti HTML, le sue immagini non verranno caricate sul suo sito.

Ridurrà inoltre il carico del tuo server e l'utilizzo della larghezza di banda, aumentando la velocità e le prestazioni del tuo WordPress.

In alternativa, puoi aggiungere una filigrana alle tue immagini che ti dia credito. Questo renderà chiaro che lo scraper ha rubato il tuo contenuto.

Puoi imparare queste due tecniche, così come altri modi per proteggere le tue immagini, nella nostra guida su modi per prevenire il furto di immagini in WordPress.

6. Scoraggiare la copia manuale del tuo contenuto

Mentre la maggior parte degli scraper utilizza strumenti automatici, alcuni ladri di contenuti potrebbero tentare di copiare manualmente tutto o parte del tuo contenuto.

Un modo per rendere questo più difficile è impedire loro di copiare e incollare il tuo testo. Puoi farlo rendendo più difficile per loro selezionare il testo sul tuo sito web.

Per imparare come impedire la copia manuale del tuo contenuto, consulta la nostra guida passo passo su come impedire la selezione e la copia/incolla del testo in WordPress.

Tuttavia, questo non proteggerà completamente il tuo contenuto. Ricorda, gli utenti esperti di tecnologia possono ancora visualizzare il codice sorgente o utilizzare lo strumento Inspect per copiare tutto ciò che desiderano. Inoltre, questo metodo non funzionerà con tutti i browser web.

Inoltre, tieni presente che non tutti coloro che copiano il tuo testo saranno ladri di contenuti. Ad esempio, alcune persone potrebbero voler copiare il titolo per condividere il tuo post sui social media.

Ecco perché ti consigliamo di utilizzare questo metodo solo se ritieni che sia veramente necessario per il tuo sito.

7. Sfrutta gli scraper di contenuti

Man mano che il tuo blog diventa più grande, è quasi impossibile fermare o tenere traccia di tutti gli scraper di contenuti. Inviamo ancora reclami DMCA. Tuttavia, sappiamo che ci sono tonnellate di altri siti che stanno rubando i nostri contenuti che semplicemente non riusciamo a tenere il passo.

Invece, il nostro approccio è cercare di sfruttare gli scraper di contenuti. Non è così male quando vedi che stai guadagnando dal tuo contenuto rubato o ricevi molto traffico dal sito web di uno scraper.

Rendi l'internal linking un'abitudine per ottenere traffico e backlink dagli scraper

Nella nostra guida definitiva alla SEO, ti consigliamo di prendere l'abitudine di creare collegamenti interni. Inserendo link ad altri tuoi contenuti nei tuoi post del blog, puoi aumentare le visualizzazioni di pagina e ridurre il tasso di rimbalzo sul tuo sito.

Ma c'è un secondo vantaggio quando si tratta di scraping. I link interni ti faranno ottenere preziosi backlink dalle persone che rubano i tuoi contenuti. Motori di ricerca come Google utilizzano i backlink come segnale di ranking, quindi i backlink aggiuntivi fanno bene alla tua SEO.

Infine, questi collegamenti interni ti permettono di rubare il pubblico dello scraper. Blogger di talento inseriscono link su parole chiave interessanti, rendendo allettante per gli utenti fare clic. Anche i visitatori del sito web dello scraper faranno clic sui link, che li riporteranno direttamente al tuo sito web.

Collega automaticamente le parole chiave con link di affiliazione per guadagnare dagli scraper

Se guadagni sul tuo sito web tramite marketing di affiliazione, ti consigliamo di abilitare il collegamento automatico nei tuoi feed RSS. Questo ti aiuterà a massimizzare i tuoi guadagni dai lettori che leggono il tuo sito solo tramite lettori RSS.

Ancora meglio, ti aiuterà a guadagnare dai siti che stanno rubando i tuoi contenuti.

Utilizza semplicemente un plugin per WordPress come ThirstyAffiliates che sostituirà automaticamente le parole chiave assegnate con link di affiliazione. Ti mostriamo come fare nella nostra guida su come collegare automaticamente le parole chiave con link di affiliazione in WordPress.

Promuovi il tuo sito web nel piè di pagina del tuo RSS

Puoi utilizzare il plugin All in One SEO per aggiungere elementi personalizzati al piè di pagina del tuo RSS.

Ad esempio, puoi aggiungere un banner che promuove i tuoi prodotti, servizi o contenuti.

Salva piè di pagina RSS AIOSEO

La parte migliore è che anche quei banner appariranno sul sito web dello scraper.

Nel nostro caso, aggiungiamo sempre una piccola nota in fondo ai post nei nostri feed RSS. Facendo ciò, otteniamo un backlink all'articolo originale dal sito dello scraper.

Questo fa sapere a Google e ad altri motori di ricerca che siamo l'autorità. Fa anche sapere ai loro utenti che il sito sta rubando i nostri contenuti.

Per ulteriori suggerimenti, consulta la nostra guida su come controllare il piè di pagina del tuo feed RSS in WordPress.

Speriamo che questo tutorial ti abbia aiutato a imparare come prevenire lo scraping dei contenuti del blog in WordPress. Potresti anche voler consultare la nostra guida definitiva alla sicurezza di WordPress o la nostra selezione di esperti dei migliori plugin per la protezione dei contenuti per WordPress.

Se ti è piaciuto questo articolo, iscriviti al nostro canale YouTube per tutorial video su WordPress. Puoi anche trovarci su Twitter e Facebook.

Dichiarazione: Il nostro contenuto è supportato dai lettori. Ciò significa che se fai clic su alcuni dei nostri link, potremmo guadagnare una commissione. Vedi come è finanziato WPBeginner, perché è importante e come puoi supportarci. Ecco il nostro processo editoriale.

Il Toolkit WordPress Definitivo

Ottieni l'accesso GRATUITO al nostro toolkit - una raccolta di prodotti e risorse relative a WordPress che ogni professionista dovrebbe avere!

Interazioni del lettore

90 CommentsLeave a Reply

  1. Wow, questa è una guida incredibilmente completa su come prevenire il scraping dei contenuti del blog! Grazie, WPBeginner, per aver fatto luce su questo problema frustrante.
    Mi è piaciuta particolarmente la sezione su come rendere il feed RSS più difficile da fare scraping: non ci avevo pensato prima.
    Il consiglio di ritardare la pubblicazione dei post nel feed RSS è brillante e qualcosa che implementerò sicuramente sul mio blog SUBITO!

  2. Molti miei amici mi parlavano di usare il feed RSS e di creare contenuti sul loro sito web in questo modo. Non ero consapevole di come funzionasse esattamente e di quali benefici ne traessero.
    Fare scraping dei contenuti altrui e presentarli come se li avessero creati da sé è un'offesa, ma in un mondo senza etica chi se ne importa. Grazie per aver creato questa guida seguendo la quale possiamo impedire che i nostri contenuti vengano fatti oggetto di scraping e almeno possiamo volgerlo a nostro vantaggio.

  3. Grazie per l'articolo. Ho un blog con oltre 1200 articoli e devo iniziare ad affrontare anche quello. Grazie per i preziosi consigli.

  4. Grazie per il post.
    Ma posso anche rimuovere o disabilitare completamente il feed RSS o c'è qualche beneficio speciale in esso.
    Quindi, se voglio disabilitare completamente il feed RSS, come farò.
    Grazie.

      • è una buona idea sapere che possiamo anche disabilitare il feed RSS, impedendo così il potenziale furto e scraping dei contenuti.
        sebbene la disabilitazione del feed RSS comporti anche alcuni compromessi.
        ci sono svantaggi SEO nella disabilitazione del feed RSS?
        o non ha nulla a che fare con la SEO e il posizionamento?

  5. Grazie. Esattamente le informazioni di cui ho bisogno. Ma gli scraper usano ancora il feed RSS nel 2019?

  6. Sentiamo parlare molto di ottenere contenuti dal sito tramite la curatela di contenuti. Lo scraping di contenuti è la stessa cosa della curatela di contenuti? Se no, qual è la differenza tra i due?

    • Lo scraping di contenuti consiste nel prelevare contenuti da altri siti per inserirli sul proprio sito senza permesso, la curatela di contenuti consiste normalmente nel collegare ad altri contenuti all'interno di contenuti che hai creato.

      Amministratore

  7. Sto affrontando questi problemi, ne avevo più di 20 per uno dei nostri marchi, poi ci siamo trasferiti altrove e sono tornati di nuovo.

  8. Ho trovato un vero e proprio scraper di contenuti dannoso dal mio blog, non solo rubano i miei contenuti, usano lo stesso nome per il loro blog di spam separato solo da un – e tutta la descrizione, i tag, fondamentalmente cercando di essere me, usano link nel feed RSS con il mio blog, canale YouTube, Facebook, Twitter, Pinterest & Google Plus, che appare sul loro blog di spam, ho anche scoperto che le immagini PNG appaiono sulla prima pagina ma le JPEG no, ma questo forse è solo su Blogger.

  9. Amo assolutamente l'idea dell'interlinking. Dovrò dare un'occhiata al suggerimento RSS, dato che ho dimenticato come funziona esattamente, essendomi concentrato sulla scrittura di e-book Kindle per un po' (parliamo di scraping di contenuti – zero protezione lì!.. ecco perché sono tornato alla scrittura di siti web) ma sento di avere davvero un punto di partenza per proteggere i miei contenuti! Grazie!

  10. WOW! C'è così tanto da prendere in considerazione quando si avvia un blog. Il mio blog ha solo 2 settimane. Ho usato principalmente WP Beginner per configurare il mio blog. Ci sono così tante buone informazioni presentate in un modo che un principiante può seguire.

    Non so se questo funziona per lo scraping di contenuti, ma ho installato un plugin chiamato Copyright Proof. Disabilita il clic destro in modo che le persone non possano copiare e incollare i tuoi contenuti.

    Ho deciso di usare questo plugin perché era un plugin consigliato per i siti di autori.

  11. Un altro ottimo articolo, lavoro come giornalista freelance quindi vendo molti articoli e spetta alle persone che li acquistano decidere le loro politiche.
    Ma ho anche un paio di blog e siti web di affiliazione, quindi penso che potrei dover dare un'occhiata a quello che sta succedendo con i miei contenuti.

  12. Non dare credito dove è dovuto conta come "scraping di contenuti"?

    Perché Jeff Starr ha scritto questo stesso post su Perishable Press oltre 5 anni fa:

    Controlla la struttura e la terminologia del tuo articolo e confrontala con l'originale.

    Sto solo dicendo.

  13. Ho appena sviluppato un tema per Blogger e quel tema necessita di un feed completo per funzionare. Sono preoccupato per lo scraping dei contenuti. Penso che se molti scraper usano i miei contenuti sul loro sito Blogger, che ha gli stessi contenuti del mio sito, i backlink puntano al mio sito, il mio blog sarà considerato spam agli occhi di Google e verrà eliminato.

  14. Grazie per questo fantastico articolo con consigli utili! Ho appena ricevuto una penalità per "Contenuti scarsi" da Google. Ho chiesto aiuto a un esperto SEO, mi hanno detto di smettere di fare scraping di contenuti. Mi hanno inviato un link di un articolo che ho scritto ieri e pensavano che l'avessi rubato da un altro sito web. La cosa brutta è che stavano rubando da me, non solo quell'articolo, ma probabilmente un paio di migliaia di articoli! Sono ancora nella ricerca di Google e io no. Sono io quello penalizzato! A quanto pare ci sono almeno tre siti web che fanno scraping dei miei contenuti, non sono nemmeno sicuro di cosa fare.

  15. Articolo fantastico.

    Sono in parte d'accordo con la maggior parte dei punti che hai discusso. In realtà, alcuni dei punti sono piuttosto fantastici.

    Ma se la tua unica attività si basa sui contenuti del tuo sito web, non dovremmo essere più attenti ai crawler?

    Non credo che il furto di contenuti possa mai essere positivo per il proprietario dei contenuti.

    Suppongo che dovremmo tutti pensare di adottare misure preventive piuttosto che reattive. Puoi considerare l'utilizzo di ShieldSquare, una soluzione di protezione dei contenuti per bloccare permanentemente lo scraping dei contenuti.

  16. So che questo è un vecchio articolo, ma l'unica fonte NOTORIA per consentire lo scraping di contenuti è WordPress con la sua funzione "Press This". In sostanza, lo stanno incoraggiando.

  17. Penso di aver finalmente trovato la risposta al mio problema. Pensavo che qualcuno mi stesse rubando le storie e le stesse trasformando in "nuove" storie. Pensavo che qualcuno ce l'avesse con me o che stessi impazzendo. Stavo quasi impazzendo pensando così. Paranoico. Preoccupato che qualcuno stesse ascoltando le mie telefonate private. Quando in realtà, tutte le informazioni provengono direttamente dal mio blog! Questo articolo potrebbe avermi salvato la vita. Letteralmente. Non sto nemmeno scherzando perché ero così spaventato di stare impazzendo e cercavo molto selettivamente di parlarne con gli amici, per ottenere un feedback o un supporto, e venivo guardato come se fossi pazzo e avessi bisogno di andare al reparto psichiatrico per un po'. Questo articolo rende quello che mi è successo, del tutto sensato. Grazie! Sono così sopraffatto dal sollievo.

  18. Grazie per alcuni suggerimenti, ma una buona parte di questo articolo non è molto utile. La maggior parte degli scraper non sono scraper ciechi, il contenuto viene generalmente aspirato, esaminato da un occhio umano e poi pubblicato. Ciò significa che anche dedicando un minuto a esaminare un articolo, il ragazzino spam è in grado di pubblicare centinaia di articoli copiati al giorno. Il problema dei backlink è molto facile da aggirare per gli scraper di contenuti poiché gli importatori di feed hanno opzioni di pre-elaborazione e generalmente le impostano per rimuovere i link dal corpo. Inoltre, non vedo come trasformare l'RSS in un riassunto possa aiutare in alcun modo, gli importatori di feed utilizzano solo l'RSS per acquisire il link al nuovo contenuto e da lì seguono lo scheletro del tuo HTML, che hai impostato bene con tag appropriati per immagini, titoli, link, ecc. per la comodità di Google ed estraggono molto facilmente il contenuto.

    Ovviamente bloccare l'IP è un'ottima soluzione. I DMCA sono generalmente una perdita di tempo; richiedono tempo per essere formulati e gli host stupidi impiegano tempo a rispondere (poiché gli spammer scelgono questi host specificamente perché sono lassisti sull'attività simile allo spam). Di tutti, Google è il più frustrante; non importa quanti report presenti loro, non agiscono mai su nessuno dei contenuti rubati su cui stanno mostrando annunci e continuano a classificare bene il sito di spam di merda nei risultati di ricerca, nonostante sia facile per i loro sistemi rilevare le copie.

    • John, non potrei essere più d'accordo con te. Google si è arrabbiato con me affermando che ero io la persona che rubava i miei contenuti. Questa persona ha rubato i miei contenuti e li ha messi su Blogger. L'audacia. Deve esserci una soluzione per questo. A questo punto, blocco e basta!

  19. Allora forse il modo migliore per te è cambiare la licenza e inviare aggressivamente avvisi di rimozione agli scraper di contenuti. Nel frattempo, continua a concentrarti sulla creazione di contenuti di qualità.

  20. Ciao,
    Ho appena trovato il tuo articolo mentre cercavo risposte ad alcune delle mie preoccupazioni.
    Io, insieme ad alcuni amici, abbiamo lanciato un sito web sul fai-da-te in Italia qualche mese fa, che sta funzionando inaspettatamente bene, con ranking alti, molto traffico, ecc. Tuttavia, il PR è ancora 0. I nostri contenuti hanno una licenza Creative Commons 4.0, perché crediamo davvero che sia un buon modo per condividere contenuti. TUTTAVIA:
    Tempo fa abbiamo notato un sito PR4 con molto traffico che copiava i nostri articoli migliori, linkando alla nostra homepage (che non è quello che si dovrebbe fare con una licenza CC, ma va ancora bene). I problemi sono questi:
    1. ci sono un sacco di siti più piccoli che raschiano i loro (i nostri) contenuti e linkano a loro invece che al nostro sito
    2. il sito PR4 e alcuni dei siti più piccoli in qualche modo si posizionano meglio del nostro sito
    3. ci sono forti indicazioni che una penalizzazione di Google ai NOSTRI contenuti abbia avuto luogo, poiché ha un PR inferiore rispetto alla maggior parte delle altre pagine (che sono online da molto tempo).

    Siamo in contatto con il sito PR4 e per noi va bene se usano i nostri contenuti, purché linkino all'articolo originale (questo è il senso della licenza CC), MA stiamo cercando di trovare una soluzione per evitare di incorrere in penalizzazioni di Google: il rel canonical farebbe al caso nostro? Qual è la tua opinione? Dovremmo cambiare la nostra licenza ed essere più aggressivi nei confronti della copia dei contenuti?
    Grazie!

    • Philipp, se non l'hai già fatto, dovresti creare un account per gli strumenti per webmaster per il tuo sito e inviare la tua sitemap. Ti aiuta a capire se c'è un problema con il tuo sito, come sta andando il tuo sito nella ricerca e puoi usare molti altri strumenti. Aiuta anche Google a capire meglio dove è apparso per la prima volta alcuni contenuti.

      Non pensiamo che cambiare la licenza impedirà ai content scraper di copiare i tuoi contenuti.

      Amministratore

      • Ciao! Sì, abbiamo creato un account per gli strumenti per webmaster, collegato il sito alla nostra pagina Google+ e la maggior parte degli autori ai loro profili Google+ utilizzando i tag publisher e author. L'authorship sembra funzionare bene negli snippet di ricerca, ma finora non sembra fare molta differenza nel caso di contenuti copiati. Le pagine con PR più alto che copiano i nostri contenuti sono ancora in cima...

  21. Uno dei modi migliori per non essere influenzati da questo è fare ping in modo efficace. Fare ping e inviare manualmente le pagine a Google e Bing fa arrivare gli spider sul tuo sito VELOCEMENTE. Indicizzano le pagine il prima possibile, quindi quando trovano contenuti duplicati su altri siti ti considerano l'autorità.

    Ho però il sospetto che questo possa avere a che fare con il PageRank... Ma Matt Cutts (team webspam di Google) ha sostenuto l'uso dei pinger su questo argomento. Non sono sicuro di quanto posso fidarmi di quello che dice, però.

    Per aggiungere altri servizi, vai su Impostazioni -> Impostazioni di scrittura -> Servizi di aggiornamento -> Apri il link "Servizi di aggiornamento" in una nuova scheda e copia tutti i servizi di aggiornamento. Torna in WordPress incollali nell'elenco ping e fai clic su Salva.

    Apri un account in Bing Webmaster Tools per l'invio manuale di URL per un'indicizzazione rapida.

  22. Ho scoperto di recente un tizio che può prelevare un feed RSS dal mio blog – tieni presente che il mio blog è un feed di riepilogo con la riga di Yoast 'Questo post è stato trovato per primo su'. Ho inviato al tizio un messaggio di ringraziamento, dicendogli fondamentalmente che mi sta dando backlink, E dicendo a Google che sta copiando il mio sito web (poiché possono guardare i timestamp per vedere quale è stato pubblicato per primo).

    Controllato 2 giorni dopo, e tutta la mia roba era misteriosamente sparita...

    • Puoi assolutamente usare quel plugin. Blocca i clic destri, le scorciatoie da tastiera per copiare, la blacklist degli IP ecc. Tutto ciò impedisce lo scraping manuale, tuttavia la maggior parte degli scraper di contenuti utilizza strumenti automatici. Quindi nessuno di questi sarebbe di grande aiuto.

      Amministratore

    • Grazie per la tua risposta – la versione pro afferma che ti protegge dagli attacchi bot, quindi immagino che significhi bot scraper? il prezzo mi scoraggia dall'installarlo su tutti i miei siti, ma potrei usarlo su uno solo per vedere quanto bene funziona

  23. Questo è uno dei, se non il migliore, articolo "per principianti" che abbia mai incontrato sul web.

    Dopo averlo letto, mi sento come se avessi appena avuto un incontro con un consulente di sicurezza.

    Sto applicando queste tecniche proprio ora!

    Grazie. Ora sono un follower di questo sito.

  24. Mi è successo solo un paio di volte. Un blogger dall'esterno degli Stati Uniti ha preso il mio post parola per parola e lo ha pubblicato sul suo sito come se fosse suo. Dato che si trattava solo di un singolo post con il mio video di YouTube incorporato, non mi sono preoccupato troppo dei dettagli, poiché il CTR del mio canale ha comunque visto un bel picco di visite.

  25. Voglio solo dire grazie, grazie e grazie!

    Ho appena scoperto il tuo sito web oggi, ho letto solo 3 articoli finora (incluso questo)... ma sono estremamente colpito.

    Ho iniziato a fare blogging solo da 5 settimane, ma lo trovo avvincente, specialmente vedendo il traffico crescente e l'interazione degli utenti come risultato dei miei sforzi. Vedere 100 visitatori sul mio blog in un giorno, e poter vedere chi li indirizza, mi motiva ad imparare tutto ciò che posso per aumentare il marketing sui social media e le interazioni con i nuovi visitatori.

    Cordiali saluti,
    @earthlingEd

  26. Adoro il tuo sito web e sono rimasto sconvolto nel leggere dello scraping di contenuti! C'è un modo per creare una filigrana in modo che non sia di disturbo per i tuoi lettori, ma per il sito dello scraper sia palesemente evidente?

  27. È legale pubblicare l'articolo completo da un altro sito web e scrivere il nome del sito di origine in fondo all'articolo?

  28. C'è qualche modo / plugin

    qualcuno sta copiando le mie foto del blog di moda e le pubblica sul loro forum

    ma quando clicco sull'immagine in quel forum. si apre in una nuova finestra

    voglio un plugin o uno script che se copiano le mie immagini quando qualcuno clicca su quelle immagini, allora quella persona viene reindirizzata al mio post del blog relativo a quelle immagini?

    c'è qualche plugin?

      • L'ho fatto, ho solo cambiato

        quando qualcuno carica un'immagine, sul lato destro mostra il link dell'URL

        l'impostazione predefinita è file multimediale
        devi cambiarla nell'URL dell'allegato

        fatto!

        quando qualcuno copia le immagini del tuo blog. Questo dà un backlink alla tua pagina pubblicata

  29. If someone takes an article written in English and translate it, using their heads and not google translate, into some other language, lets say because the majority of the people in the country of that other language doesn’t understand English. Would you point them out as scrapers anyway? Or what is your opinion on that?
    For me personally I don’t find it extremely problematic, of course I believe the “author” should link bank to the original article while clarifying that his article is translated.

  30. Questo è un articolo eccezionale. Dopo averlo letto, spero che tu non mi veda come uno scraper di contenuti. Ho usato estratti dal tuo (curati), ho sempre il pulsante "Leggi l'articolo completo" e ho il link alla tua pagina lì, e molti dei miei post vengono twittati e includo il tuo account Twitter. Se non lo desideri, fammelo sapere e sarò lieto di rimuoverlo. Apprezzo molto il tuo lavoro e voglio condividerlo con i miei visitatori. Non è mia intenzione rubare i tuoi visitatori, ma dare un buon valore ai miei e mandarli da te per saperne di più.

    • Greg, finché mostri solo un estratto e mandi l'utente al nostro sito per leggere l'articolo completo, allora non è scraping. Come hai detto, è curatela. Tantissimi siti popolari lo fanno (ad esempio reddit, digg, ecc.).

      Amministratore

  31. Il mio sito ha molti articoli originali sulla sicurezza e un paio sono stati copiati. Il sito che mi ha copiato era su Yahoo! News con il mio articolo e la gente commentava. Ho gestito la questione commentando e dicendo che ero l'autore originale e ho risposto ad alcuni commenti. Avevo link interni, è così che l'ho scoperto così velocemente. Un trucco di cui scriverò è far apparire un banner o un'immagine a coloro che provengono da un sito di scraping che dice loro cosa è successo. La richiesta infinita di suggerimenti sembra illegale ai sensi del Computer Fraud and Abuse Act. Non sono un avvocato. Scrivo solo di sicurezza, quindi devo conoscere le leggi sulla sicurezza informatica.

    Non mi piace che il tuo modulo non abbia accettato l'email della mia azienda come email valida.

    • Ci dispiace Ryan che il nostro modulo non abbia approvato la tua email aziendale. Non siamo sicuri di cosa sia successo lì, ma è pensato per approvare tutte le email valide.

      Amministratore

  32. bella e informativa spiegazione, mi piace il tuo approccio di sfruttare gli scraper, tuttavia bloccare un IP potrebbe non funzionare sempre; un serio scraper userebbe spesso un elenco di proxy anonimi o gratuiti, in quel caso il blocco di un IP potrebbe non essere una soluzione efficace poiché lo scraper lo cambierebbe spesso. Una soluzione è scrivere un piccolo script che rileverà traffico anomalo da un dato IP, diciamo più di 20 richieste/sec e lo sfiderà con un captcha se non c'è risposta, metti l'IP in una blacklist temporanea per circa 30 minuti. puoi rafforzarlo con un altro javascript che rileva movimenti del mouse, touch o tastiera dopo alcuni colpi, se non viene rilevata alcuna tastiera, mouse o touch, puoi nuovamente mettere lo scraper nella blacklist temporanea, ha funzionato a meraviglia per noi.

  33. Le tue soluzioni sono abbastanza buone per gli scraper di contenuti.
    Ma cosa succede se le persone copiano e incollano manualmente i contenuti nelle loro pagine Facebook.
    Abbiamo implementato tynt ma rimuovono il link all'articolo originale, hai qualche idea su come puoi gestire questo tipo di situazione.

      • In realtà c'è un plugin creato da IMWealth Builders, probabilmente l'unico dei loro plugin che mi piace, il resto è piuttosto spazzatura e comporta lo scraping di siti di e-commerce (CB, Azon, CJ ecc.) per commissioni di affiliazione.

        Si chiama "Covert Copy Traffic" e ti permette effettivamente di impostare qualsiasi testo prima o dopo un certo numero di parole. Quindi, diciamo che imposto per postare "Questo contenuto è stato preso da xxxxxxx.com" dopo 18 parole. Quindi, ogni volta che qualcuno copia/incolla più di 18 parole dal sito web, aggiungerà quel testo in fondo, 17 parole o meno non farà nulla.

        Queste erano solo impostazioni di esempio. Plugin piuttosto utile, funziona a meraviglia. Ho provato quasi tutti i modi che mi sono venuti in mente per aggirare l'inserimento del testo, ma sembra impossibile. Il plugin è troppo forte.

        • Sì, è corretto. Puoi semplicemente usare quello script per dire "Il contenuto proviene dal tuo sito.com" invece di "Leggi di più".

        • È vero che i loro programmi Amazon ecc. sono scraper? Se è così, ho fatto un grosso errore su un acquisto da loro, per fortuna non l'ho ancora usato.

        • Sì Jennae, è legale nel senso che Amazon ti permette di copiare contenuti dalle loro pagine. Aiuta le loro vendite, gli affiliati sono il motivo per cui Amazon è Amazon.

          Tuttavia Google e altri motori di ricerca (quelli che contano) lo considerano solo un "sito di affiliazione sottile" nel senso di nessun contenuto originale. Pertanto non si posizionano a meno che non ci sia una certa percentuale di contenuto originale anche sul sito.

          Uno scraper, non è altro che uno spider/crawler, generalmente funziona in modalità socket, tuttavia alcuni funzionano in modalità browser.

          Solo perché è etichettato come scraper non lo rende necessariamente negativo, io uso regolarmente scraper e spider per controllare il mio sito per link innaturali, controllo altri per analisi della concorrenza e ricerca di parole chiave e una varietà di altri compiti che non danneggiano nessuno, ma mi avvantaggiano.

          Tuttavia non mi piace né approvo nessuno che faccia scraping allo scopo di violazione del copyright. Che è di ciò di cui questa discussione tratta veramente.

          Google usa lo spider "Google Bot" per indicizzare il web insieme a centinaia di altri motori di ricerca, ci sono migliaia, centinaia di migliaia di spider che scansionano il web per una varietà di scopi. Google esegue anche lo scraping dei siti web per "metterli in cache". Come fanno molti servizi importanti di cui abbiamo bisogno, come gli archivi storici del web.

  34. I’m about to begin aggressively searching for sites that are copying my content and have the content removed. I no it is impacting how my site ranks so I have to do something about it. Any idea how much has to be copied before you can deliver DMCA notices? Is a paragraph in an article enough to legally be able to call it plagiarized?

  35. You fail to mention that any self respecting autoblogger will strip out links and insert their own affiliate links rather than using your content as it comes, so your approach to getting links from them will usually fail.

      • Agreed! There’s a very special “Hot Place” near the center of the Earth for Spammers, Scrapers and Auto-Bloggers…

  36. I think that the best idea is to include affiliate links.
    After the last Pinguin update, my website was penalized. I started to analyze it and I’ve discovered that many other sites copied my content. I don’t know why, but those websites rank better than me in search engines, using my content.

    • Non solo link di affiliazione. Includi quanti più link interni possibile. Perché se quei siti rimandano alle tue altre pagine, Google SAPRÀ che sei un sito autorevole.

      Amministratore

      • Ciao team di wpbeginner.com. Apprezzo molto questo articolo, ma ho una domanda riguardo ai link interni nelle tue pagine/post.

        Immagino tu intenda link 'assoluti'?? Altrimenti questo potrebbe non funzionare a tuo favore, una volta che il contenuto è stato copiato... Beh, finora sono sempre andato d'accordo con i link relativi, come fai tu, suppongo. Qual è il metodo migliore? Saluti!

  37. prima di tutto il tuo tutorial è semplicemente fantastico... tanto di cappello! solo un dubbio come faccio a sapere se un sito è un sito scraper? ho usato il tuo metodo e ho scoperto che Google Search Console segnala che ci sono 262 link al mio sito e ci sono molti siti che non conosco... quindi sono in confusione... come faccio a verificare se un sito è un sito scraper o un sito autorevole?? esiste uno strumento per questo? grazie in anticipo!

      • sì è vero... ma se non voglio trovare il mio articolo su quei siti di scraping... so che il mio articolo è lì poiché è segnalato da GWT e voglio solo bloccare quell'indirizzo IP inserendo quelle regole rewritecond nel file htaccess... non voglio perdere tempo a cercare quei siti cattivi per il mio articolo o a chiedere loro di rimuovere il mio articolo.

  38. Grazie per questo articolo – e per il tuo sito in generale!. Mi piace così tanto che mi ero chiesto come avrei tenuto traccia di questa risorsa. E ora vedo le opzioni di iscrizione qui sotto. Che modo per ottenere un commento!

  39. Prevenire lo scraping dei contenuti è quasi impossibile. Non credo che gli scraper di contenuti mi danneggino in alcun modo. Mi stanno solo votando perché ho contenuti di alta qualità. Google è abbastanza intelligente da rilevare gli editori originali. Nessuno dovrebbe preoccuparsi.

  40. molto informativo, se usi cloudflare, ci sono nuove app chiamate ScrapeShield, e puoi facilmente proteggere e tracciare/monitorare i contenuti del tuo sito gratuitamente.

    • wow è fantastico amico... usi cloudflare? volevo solo la tua recensione perché non ho mai usato quel servizio cdn.. so che è gratuito ma penso che il tempo di caricamento del mio sito sia già ottimo che non ne avessi bisogno... ora che c'è scrapeshield penso che lo controllerò sicuramente... quali altre app otterremo se iniziamo a usare cloudflare?? grazie

      • Ciao,
        IMO @cloudflare è davvero fantastico. Ho due siti su di esso (sia il mio che il blog di mia moglie) ed è davvero incredibilmente veloce, ma questo senza contare tutta la sicurezza, l'analisi del traffico, il supporto per le app (installazioni automatiche di app) che forniscono.

        So che tutte le configurazioni di hosting sono diverse, ma ho entrambi i nostri siti in esecuzione sul Media Temple (gs)Grid Service. Posso dire onestamente che i nostri siti ora funzionano più velocemente di quanto facessero quando usavo W3 Total Cache e Amazon S3 come mio CDN. In realtà, uso ancora W3TC sul mio sito per minimizzare & memorizzare nella cache i miei contenuti, ma uso CloudFlare per i servizi CDN, DNS e di sicurezza.

        Lo consiglio vivamente... In realtà, apprezzerei molto se qualcuno di WPBeginner ci desse la sua opinione approfondita ed esperta sui servizi CloudFlare. Per me, sono stati fantastici!

  41. Puoi anche ottenere un plugin il cui nome al momento mi sfugge che fa la ricerca su Google per te. Aggiunge anche un codice al tuo RSS che l'app cerca

  42. Ottimo post, so che ci sono molti autoblog che recuperano i miei contenuti. Sebbene dopo l'aggiornamento di Penguin il mio sito stia ricevendo 3 volte più traffico da Google rispetto a prima. Ma dopo aver letto di molti disastri o generatori di contenuti originali sono preoccupato per future penalizzazioni da parte di Google. 
     
    La mia esperienza è che di solito Google rispetta i siti ad alto PR con buoni backlink di autorità. ma il sito ha solo un anno e il PR è inferiore a 5. 
     
    Cerco di contattare gli scraper ma la maggior parte di loro non ha moduli di contatto. quindi penso che proverò quel metodo htaccess per bloccare gli indirizzi IP degli scraper. Ma d'altra parte alcuni di loro possono usare Feedburner. 

    • Personalmente non mi preoccupo degli RSS poiché la maggior parte degli utenti non li utilizza. Invece, fornisci un feed di newsletter. Fa la stessa cosa + ottieni email per fare marketing (se fatto correttamente). La maggior parte delle persone è più propensa a iscriversi a un blog piuttosto che a segnalibro RSS secondo la mia esperienza. Quindi è meglio disattivare gli RSS. Puoi farlo usando WordPress SEO di Yoast e vari altri plugin.

      Quindi, se implementi anche le strategie menzionate sopra, dovresti stare bene. Rimuovi tutte le intestazioni non necessarie RSD WLM ecc.

      Ce ne saranno un paio ancora in grado di fare scraping in modo efficace, ma quei trucchi ne diminuiranno un gran numero.

Lascia un commento

Grazie per aver scelto di lasciare un commento. Tieni presente che tutti i commenti sono moderati secondo la nostra politica sui commenti, e il tuo indirizzo email NON verrà pubblicato. Si prega di NON utilizzare parole chiave nel campo del nome. Avviamo una conversazione personale e significativa.