NUR Web Agency – Blog

Posizionamento sui Motori di Ricerca, grafica web e programmazione

Archive for luglio, 2008

Big Table

Posted by Editor-C on 18th luglio 2008

Big Table: grande tabella

E’ un sistema di archiviazione distribuita, attiva dal 2005 per determinati servizi di Google. E’ di grandi dimensioni, con dati strutturati sempre allo stesso modo (o non sarebbe una tabella) ed è utilizzata contemporaneamente da più servizi di Google.

Non è l’unica tabella: pare che quella degli “indici” sia separata, almeno a detta di Jeffrey Dean (Google), ma sembra sia fra le più importanti, a detta di Nicola Briani (nbriani).

Se il nostro lettore avesse la sensazione che inoltrarsi nei meandri di Google, possa essere difficoltoso ed aleatorio quanto esplorare i segreti tecnici della NASA, sappia che la sua sensazione è giusta e condivisa dal sottoscritto: tutto è segreto e quel poco che si sa non è mai confermato o con certezza o completezza d’informazione. Continueremo a restare sempre sull’altamente probabile, ma non saremo mai all’assolutamente e totalmente certo!

Dati Storici

Big Table è in grado di memorizzare le “variazioni storiche” dei dati archiviati nel tempo, di un determinato sito (preso come esempio), dei link in esso contenuti. L’analisi ed il confronto dei dati storici (es: velocità di crescita dei backlinks, variazioni tematiche/contenuti, quantità di pagine nel tempo, ecc. ecc.), permette un’efficace lotta allo spam.

Per vedere come, analizziamo innanzitutto questa tabella.

Essa è suddivisa, principalmente, in due parti: Tabella 1 e Tabella 2.

Tabella 1 = 1000 miliardi di celle + 16 famiglie di dati.

Ipotesi (nbriani): 200 celle per ogni documento (200x5mld di pagine=1000 mld) con un numero indefinito di TimeStamp (cronologia di “stampa”). In breve: ogni cella nella Big Table, può contenere versioni diverse degli stessi dati. Le versioni diverse sono indicizzate in funzione TimeStamp (in modo cronologico).

Ipotesi (nbriani) 16 famiglie di dati. Ne sono state individuate dodici (sono, ovviamente, relativi al nostro sito di es.): Codice HTML, Anchor Text/bl, PageRank, lingua, Tipo di documento, Indirizzo Ip (individua il sito ed il server che lo contiene materialmente), Amministratore, Scadenza, dati Social networking (argomento del sito), Click nelle serp, Penalizzazioni, Trust Rank.

Tabella 2 = 200 miliardi di celle + 2 famiglie di dati

Jeff ha fatto un’affermazione generica: sono “various web pages”, senza dare altri chiarimenti. Quali potrebbero essere queste pagine? La cosa più probabile è che siano:

-pagine seeds/hubs per TrustRank
-pagine seeds/hubs per BadRank e Link Spam Mass Detection
-tutte le pagine rilevate e/o ipotizzate appartenenti a “bad link nodes”

-pagine recensite manualmente da quality raters
-pagine e domini bannati

-pagine duplicate da fonti note (es: wikipedia, article marketing, scraping da serp, ecc.) sotto forma di hash e pezzi di frasi per un più veloce rilevamento di siti/pagine clone e/o remix di fonti note (molto usate dagli spammers)

-pagine nuove inserite nella tabella 1, che hanno bisogno di un rapido screening anti-spam, per poter rimanere legittimamente nella tabella 1 o essere rimosse se spam.

-pagine già presenti nella tabella 1 che, a causa di red-flag algoritmici (es.: contenuti differenti nei vari timestamp analizzati), hanno bisogno di un “ricalcolo” più veloce ed intensivo per realizzare la verifica anti-spam.

-In breve: la tabella 2 è una camera a raggi x, dove passare le nuove pagine o quelle sospette prima di rimanere legittimamente o essere rimosse (in caso fossero riconosciute spam) dalla tabella 1.

INFORMAZIONI RACCOLTE

Jeff afferma:

-ultima volta in cui è stata elaborata la pagina
-la variazione contenuti nel tempo, della pagina stessa

sono ipotizzabili inoltre i seguenti contenuti:

-il valore di TrustRank dei seeds/hubs (0-1)
-il valore di TrustRank delle altre pagine

-il valore di BadRank dei seeds/hubs (0-1)
-il valore di penalizzazione delle altre pagine (BadRank: 0-1)

-pezzi di frase e/o “shingles” di contenuto
-il flag di banning (yes/no)

-le valutazioni quali-quantitative dei Quality rater (vitale, neutrale, ecc.) nel tempo
-l’amministratore del sito nel tempo
-ecc.

CONCLUSIONI SULL’UTILITA’ di BIG TABLE

Non è solo un sistema di “archiviazione” delle pagine ma permette anche un’analisi dei “dati storici” (timestamp) delle pagine/siti nel tempo, prevalentemente (ma non solo) per fini anti-spam ed anti-duplicazione.

Consideriamo come possibile la necessità di mettere questi dati nella seconda tabella per aumentare la velocità di ricalcolo, eseguendo il controllo con tempi/costi pari a circa 1/5 che non se fossero soltanto nella tabella 1, permettendo così controlli più frequenti, a parità di costo-server (di Google).

E’ un fatto storico che dal 2005 (anno della nascita di Big Table), c’è stato un crollo definitivo degli spam compresi gli spam-engine (motori per lo spam… SIC!), in particolare di quelli che acquistavano domini scaduti, per riconvertirli in spam-engine (siti che hanno l’unica funzione di richiamarne altri, al fine di aumentare il PageRank del sito richiamato)

A dirla tutta, gli spam-engine ci sono ancora… ma hanno vita breve: normalmente non superano il mese di vita.

Posted in Posizionamento | Commenti disabilitati

Walkstation: camminare mentre si è al PC

Posted by admin on 17th luglio 2008

Si chiama Walkstation la postazione di lavoro sviluppata dall’azienda Details Worktool. La Walkstation è destinata a chi lavora per molte ore davanti a un computer. È noto, infatti, che stare seduti per ore davanti a un desk possa comportare dei rischi per la salute, soprattutto per quanto riguarda dolori muscolari e cervicali.

Inoltre molti lavoratori che utilizzano un computer e stanno seduti per molto tempo hanno maggiori possibilità di ingrassare e non mancano gli studi che descrivono scientificamente questo fenomeno tipicamente contemporaneo.

La Walkstation vuole essere la soluzione per tutti questi tipi di problemi, in quanto è costituita da una pedana di lavoro combinata a un tapis-roulant che viaggia sino a un massimo di 3,2 km/ora. Il piano di lavoro può essere regolato in altezza a seconda delle esigenze di chi lo sfrutta ed è servocomandato. In pratica, la Walkstation consente di lavorare camminando.

Come riporta Punto Informatico, Bud Kilpa, presidente di Details Worktools, parla di reazioni molto positive alla Walkstation, mentre John Challenger, presidente di Challenger Gray & Christmas, sottolinea che le aziende sono sempre più interessate a individuare soluzioni che permettano di risparmiare nei costi dovuti a malattie, specie se riconosciute come professionali.

Resta da vedere se la Walkstation possa costituire davvero un valido aiuto per il benessere dei lavoratori e per la lotta all’obesità. Uno dei punti a sfavore del prodotto risulta senza dubbio il fatto che la Walkstation occupa uno spazio notevole e che dotare ogni lavoratore di una postazione simile comporterebbe la necessità di disporre di stanze di lavoro molto ampie.

Fonte: articolo di Pierluigi Emmulo

Posted in News | Commenti disabilitati

Posizionamento sui Motori di Ricerca

Posted by nurwebagency on 15th luglio 2008

L’85% degli utenti di internet arriva sui siti di interesse utilizzando i motori di ricerca, di conseguenza un buon posizionamento è di fondamentale importanza per incrementare il numero delle visite degli utenti verso il proprio sito.

I motori di ricerca sono dunque uno dei migliori strumenti per riuscire ad acquisire un’alta visibilità su Internet, in quanto consentono di indirizzare gli utenti proprio verso quelle pagine web che sono interessati a trovare, offrendo loro una lista di siti che trattano temi inerenti alle parole cercate.

Entrare nelle prime pagine di quelle liste non è semplice, i motori di ricerca attraverso dei software chiamati “spider” setacciano la rete alla continua ricerca di siti contenenti i termini che rappresentano al meglio i contenuti del sito. Gli spider però sono molto selettivi e scelgono le pagine web che meglio si adattano all’algoritmo di indicizzazione, che stabilisce in che misura ogni sito presente nei propri archivi si combina con le parole chiave cercate dall’utente. I siti che soddisfano al meglio gli algoritmi saranno premiati da un posizionamento migliore nella lista.

Le regole a cui sono legati questi algoritmi non sono molto chiari ma, molto semplicisticamente, i principali parametri a cui tutti si attengono sono il contenuti testuale, le parole chiave e la popolarità sul web determinato dal numero di link verso il sito sparsi nel Web. Ogni motore di ricerca prende in considerazione questi tre elementi in modo differente, assegnando a ciascuno di essi un valore diverso. Ad esempio Google, a differenza di altri, ha fatto della popolarità uno dei componenti cardine del suo algoritmo di ricerca.

La riuscita di un sito web, in termini di posizionamento, dunque, potrebbe essere riconducibile alla realizzazione di un sito dai contenuti interessanti, ben strutturati e correlati ai termini che gli utenti cercheranno sui motori, ma purtroppo non sempre è così: l’autorevolezza del sito, la navigabilità, l’ottimizzazione del codice html, sono solo alcuni dei numerosi altri fattori determinanti al fine di ottenere un buon posizionamento.

Una volta selezionato e inserite le parole chiave nelle proprie pagine web è necessario valutarne l’efficacia ricercandole per ogni motore di ricerca. Manualmente è una procedura che richiede molto tempo, ma esistono diversi software che in modo automatico fanno tutto il lavoro. [leggi il resto]

 Fonte: Gianfranco Valentehtml.it

Posted in Posizionamento | Commenti disabilitati

Contenuti Flash indicizzabili

Posted by admin on 7th luglio 2008

C’è chi dibatte da tempo su quanta parte del World Wide Web i grandi motori di ricerca siano realmente in grado di offrire agli utenti sotto forma di indici o di risultati di ricerca. Piccola o grande che sia, quella fetta di rete attualmente visibile ai giganti del search Yahoo e Google si arricchirà in breve del materiale presente nei “contenitori” binari realizzati con tecnologia Adobe/Macromedia Flash.

Filmati, widget o interi siti web finora elusivi, inevitabilmente al di fuori della portata dei crawler perché basati su script in Flash sono contenuti che adesso, perlomeno nella loro parte testuale e “informativa” propriamente detta, potranno essere raggiunti, archiviati e utilizzati per la ricerca.

Google ha già provveduto a iniettare il “Flash indexing algorithm” all’interno dei suoi crawler, mentre Yahoo! prevede di farlo con il prossimo aggiornamento al suo motore di ricerca. Apparentemente tagliata fuori dai giochi rimane Microsoft con il suo Live! Search.
Alla base della nuova feature c’è una versione ottimizzata del Flash Player di Adobe (ex-Macromedia), fornito a Google e Yahoo! allo scopo, appunto, di facilitare l’implementazione della ricerca nei sempre più diffusi contenuti presentati nel formato interattivo per antonomasia. La compatibilità è retroattiva, e permette dunque di passare sin da subito al setaccio quei siti con script in Flash già incorporati.

“Gli sviluppatori di applicazioni RIA (Rich Internet Application) e di ricchi contenuti Web – scrive Adobe in una nota – non dovranno più modificare i file vecchi e nuovi al fine di renderli adatti alla ricerca: i loro contenuti saranno infatti subito reperibili dagli utenti in ogni parte del mondo”.

Un’interessante questione che emerge dall’update potrebbe essere ora stabilire la rilevanza delle nuove informazioni codificate in Flash sul resto del materiale indicizzato dai motori di ricerca. Vale più uno script interattivo o un post su un weblog? Ai motori di ricerca la – matematica – sentenza.

Fonte: Articolo di Alfonso Maruccia (2 luglio 2008)

Posted in News | Commenti disabilitati

Get Adobe Flash playerPlugin by wpburn.com wordpress themes
 

NUR Web Agency – Blog is Spam proof, thanks to hiddy's developers