Home Blog Big Table

Big Table

blog

Hr

Big Table: grande tabella E' un sistema di archiviazione distribuita, attiva dal 2005 per determinati servizi di Google. E' di grandi dimensioni, con dati strutturati sempre allo stesso modo (o non sarebbe una tabella) ed è utilizzata contemporaneamente da più servizi di Google. Non è l'unica tabella: pare che quella degli "indici" sia separata, almeno a detta di Jeffrey Dean (Google), ma sembra sia fra le più importanti, a detta di Nicola Briani (nbriani). Se il nostro lettore avesse la sensazione che inoltrarsi nei meandri di Google, possa essere difficoltoso ed aleatorio quanto esplorare i segreti tecnici della NASA, sappia che la sua sensazione è giusta e condivisa dal sottoscritto: tutto è segreto e quel poco che si sa non è mai confermato o con certezza o completezza d'informazione. Continueremo a restare sempre sull'altamente probabile, ma non saremo mai all'assolutamente e totalmente certo! Dati Storici Big Table è in grado di memorizzare le "variazioni storiche" dei dati archiviati nel tempo, di un determinato sito (preso come esempio), dei link in esso contenuti. L'analisi ed il confronto dei dati storici (es: velocità di crescita dei backlinks, variazioni tematiche/contenuti, quantità di pagine nel tempo, ecc. ecc.), permette un'efficace lotta allo spam. Per vedere come, analizziamo innanzitutto questa tabella. Essa è suddivisa, principalmente, in due parti: Tabella 1 e Tabella 2. Tabella 1 = 1000 miliardi di celle + 16 famiglie di dati. Ipotesi (nbriani): 200 celle per ogni documento (200x5mld di pagine=1000 mld) con un numero indefinito di TimeStamp (cronologia di "stampa"). In breve: ogni cella nella Big Table, può contenere versioni diverse degli stessi dati. Le versioni diverse sono indicizzate in funzione TimeStamp (in modo cronologico). Ipotesi (nbriani) 16 famiglie di dati. Ne sono state individuate dodici (sono, ovviamente, relativi al nostro sito di es.): Codice HTML, Anchor Text/bl, PageRank, lingua, Tipo di documento, Indirizzo Ip (individua il sito ed il server che lo contiene materialmente), Amministratore, Scadenza, dati Social networking (argomento del sito), Click nelle serp, Penalizzazioni, Trust Rank. Tabella 2 = 200 miliardi di celle + 2 famiglie di dati Jeff ha fatto un'affermazione generica: sono "various web pages", senza dare altri chiarimenti. Quali potrebbero essere queste pagine? La cosa più probabile è che siano: -pagine seeds/hubs per TrustRank -pagine seeds/hubs per BadRank e Link Spam Mass Detection -tutte le pagine rilevate e/o ipotizzate appartenenti a "bad link nodes" -pagine recensite manualmente da quality raters -pagine e domini bannati -pagine duplicate da fonti note (es: wikipedia, article marketing, scraping da serp, ecc.) sotto forma di hash e pezzi di frasi per un più veloce rilevamento di siti/pagine clone e/o remix di fonti note (molto usate dagli spammers) -pagine nuove inserite nella tabella 1, che hanno bisogno di un rapido screening anti-spam, per poter rimanere legittimamente nella tabella 1 o essere rimosse se spam. -pagine già presenti nella tabella 1 che, a causa di red-flag algoritmici (es.: contenuti differenti nei vari timestamp analizzati), hanno bisogno di un "ricalcolo" più veloce ed intensivo per realizzare la verifica anti-spam. -In breve: la tabella 2 è una camera a raggi x, dove passare le nuove pagine o quelle sospette prima di rimanere legittimamente o essere rimosse (in caso fossero riconosciute spam) dalla tabella 1. INFORMAZIONI RACCOLTE Jeff afferma: -ultima volta in cui è stata elaborata la pagina -la variazione contenuti nel tempo, della pagina stessa sono ipotizzabili inoltre i seguenti contenuti: -il valore di TrustRank dei seeds/hubs (0-1) -il valore di TrustRank delle altre pagine -il valore di BadRank dei seeds/hubs (0-1) -il valore di penalizzazione delle altre pagine (BadRank: 0-1) -pezzi di frase e/o "shingles" di contenuto -il flag di banning (yes/no) -le valutazioni quali-quantitative dei Quality rater (vitale, neutrale, ecc.) nel tempo -l'amministratore del sito nel tempo -ecc. CONCLUSIONI SULL'UTILITA' di BIG TABLE Non è solo un sistema di "archiviazione" delle pagine ma permette anche un'analisi dei "dati storici" (timestamp) delle pagine/siti nel tempo, prevalentemente (ma non solo) per fini anti-spam ed anti-duplicazione. Consideriamo come possibile la necessità di mettere questi dati nella seconda tabella per aumentare la velocità di ricalcolo, eseguendo il controllo con tempi/costi pari a circa 1/5 che non se fossero soltanto nella tabella 1, permettendo così controlli più frequenti, a parità di costo-server (di Google). E' un fatto storico che dal 2005 (anno della nascita di Big Table), c'è stato un crollo definitivo degli spam compresi gli spam-engine (motori per lo spam... SIC!), in particolare di quelli che acquistavano domini scaduti, per riconvertirli in spam-engine (siti che hanno l'unica funzione di richiamarne altri, al fine di aumentare il PageRank del sito richiamato) A dirla tutta, gli spam-engine ci sono ancora... ma hanno vita breve: normalmente non superano il mese di vita.
Inquadra il codice qr con la fotocamera del tuo smartphone per chattare
Whatsapp
comments Whatsapp Chat
Chatta su
Whatsapp