Home Blog Duplicazione dei contenuti

Duplicazione dei contenuti

blog

Hr

Duplicazione dei contenuti: come funzionano i filtri anti-duplicazione? Per aumentare il TrustRank-PageRank, potremmo facilmente duplicare la pagina di un sito in uno dei modi seguenti: 1) il 100% della pagina 2) la struttura del documento (template) 3) una sequenza di frasi e parole 4) ecc. ecc. ed implementare così il TrustRank-PageRank, grazie ad una serie di richiamo reciproco di link, che sembrerebbero autonomi ma che, in realtà, altro non sono che l'una il duplicato dell'altra pagina. Naturalmente le possibilità di duplicazione in tal senso, hanno come limite la sola fantasia. I motori di ricerca hanno predisposto dei filtri per arginare tale malcostume informatico, ma per esemplificare la spiegazione del loro funzionamento, cominceremo con un esempi pratico. Andiamo su un motore di ricerca e facciamo una Query (richiesta di ricerca) ad es: caschi da motociclista. I documenti trovati per la nostra richiesta, vengono confrontati fra loro. Quelli ritenuti "simili" o "identici" vengono messi nei risultati supplementari mentre quelli con più alto TrustRank o PageRank, vengono messi nei primi posti. Purtroppo, così facendo, non è detto che vincano quelli dell'autore originale o i siti più vecchi. Domanda: come viene rilevato allora un duplicato? Esistono molti brevetti rilasciati dai motori di ricerca e propongono metodi differenti (e combinazioni di essi). L'argomento è estremamente tecnico e tutt'altro che comprensibile a qualsivoglia neofita. Ci limiteremo quindi a suddividerli in due grandi gruppi, facendone poi una comparazione di utilizzo fra i vari motori di ricerca. A) Duplicati cloni: sono facilmente rilevati da tutti i motori di ricerca tramite una funzione di hash (fingerprint numerico: qualcosa di simile al conteggio delle parole nella pagina) B) Near Duplicates: è più difficile ed esoso del metodo precedente. Le pagine vengono suddivise in blocchi (cluster o fingerprints), che vengono poi analizzati separatamente usando precise sequenze di algoritmi, talvolta molto complesse. Ricordando che nessun motore di ricerca usa un solo metodo di comparazione ma ne utilizza diversi, i risultati ottenuti sono i seguenti: GOOGLE Usa essenzialmente il metodo B (su descritto) in funzione della nostra Query (cambiando di poco la stessa, i risultati potrebbero differire). In breve e molto semplicemente: divide le pagine in blocchi, le analizza in base alla nostra chiave di ricerca e stila un classifica conseguente. Fa anche una "penalizzazione" molto efficace (95% dei casi circa) dei link-copia, rendendo tutto il sistema affidabile per l'utente. MSN Come GOOGLE, anzi sembrerebbe addirittura più severo e potente di GOOGLE, ma poi dà la precedenza a query da fonti note (wikipedia, article marketing, ecc. ecc.), spesso falsando così il tutto. YAHOO Usa essenzialmente il metodo A. E' decisamente meno potente dei precedenti ed è facilmente aggirabile: basta qualche piccola modifica (titolo, struttura, descrizione, ecc.) per aggirarne i filtri. Decisamente, è il meno affidabile in tal senso, dei tre motori di ricerca.
Inquadra il codice qr con la fotocamera del tuo smartphone per chattare
Whatsapp
comments Whatsapp Chat
Chatta su
Whatsapp