Home Blog Googlebot e crawl budget: una guida in pochi passi

Googlebot e crawl budget: una guida in pochi passi

blog

Googlebot e crawl budget: una guida in pochi passi
SEO

Scopri come Google indicizza il tuo sito e come migliorarlo

Tempo di lettura ≈ 7 min.

Googlebot, crawl budget, mobile-first indexing, rendering; è così complicato capire come Google indicizza il nostro sito? Conoscere questi termini è fondamentale per capire in che modo Google esplora il web e indicizza i siti – fermo restando che l’algoritmo di Google non è noto. Tuttavia, conoscere gli elementi base del suo funzionamento può essere utile per rendere i contenuti più fruibili al motore di ricerca – e all’utente – in modo da essere visitati più spesso dal bot di Google e mostrare come i nostri contenuti siano validi e aggiornati.

Ma andiamo con ordine.

Cos’è Googlebot?

Iniziamo chiarendo che questo tipo di bot non esiste solo per Google, ma che ogni motore di ricerca ne possiede uno; prendiamo in esame Googlebot perché oltre il 90% delle ricerche online viene svolto sulla piattaforma di Mountain View.

Googlebot è semplicemente il nome dato al bot di Google che “scandaglia” il web alla ricerca di nuove pagine per indicizzarle e fare in modo che vengano trovate dagli utenti. Questo programma procede ad analizzare un sito per capire cosa si trova in quelle determinate pagine, se meritano di apparire abbastanza in alto in SERP e anche se quel sito viene aggiornato più o meno di frequente. Googlebot, infatti, torna periodicamente a visitare un sito per controllare se ci sono nuove pagine.

In minima parte è possibile influenzare il ritorno del bot sul tuo sito: aggiornando i contenuti e pubblicandone di nuovi il bot passerà più spesso. Non significa che le pagine verranno per forza indicizzate meglio, perché questo dipende anche dalla qualità dei contenuti e dalle “domande” che l’algoritmo di Google rivolge alla pagina. Ma è un buon inizio.

Googlebot è in effetti un web crawler; il termine crawl (“strisciare” o “scansionare” in inglese) indica il metodo di analisi del bot, che parte da una pagina e si fa largo fino alle altre seguendo i vari link. Dopo la scansione, avviene quindi l’indicizzazione e il posizionamento, che dipende da molti fattori, come spiega la stessa Google:

Un video preparato da Google nel lontano 2010 che spiega in modo chiaro come funziona una ricerca online

Su internet esistono molti miliardi di pagine, per cui lo stesso Googlebot deve “ottimizzare” il tempo che può dedicare a un singolo sito. Da qui nasce il concetto di crawl budget.

Cos’è il crawl budget?

Google stessa afferma che è difficile dare una definizione univoca di crawl budget e, allo stesso tempo, è qualcosa di cui chi gestisce un sito non deve preoccuparsi. È sicuramente vero, ma avere qualche conoscenza basilare non fa certo male.

Il Crawl Budget è un vero e proprio valore che rappresenta le risorse messe a disposizione dal motore di ricerca per scansionare e analizzare le pagine di un sito. È un budget, e visto quante pagine vengono scansionate ogni giorno, la stessa Google deve assicurarsi di utilizzarlo al meglio. Per cui contenuti aggiornati e di qualità verranno scansionati più spesso e in modo più approfondito.

Se una pagina – o un sito – non viene aggiornata, passerà del tempo prima che il bot torni a scansionarla. Cosa vuol dire? Meno considerazione da parte del motore di ricerca e più difficoltà per essere trovati dall’utente. Ci sono alcuni elementi da tenere d’occhio:

  • Il numero di pagine che Google scansiona giornalmente – o a intervalli di tempo relativamente brevi – dovrebbe essere il più alto possibile, per indicare che il motore di ricerca ha in alta considerazione il tuo sito;
  • Il tempo di download: indica quanto tempo impiega Googlebot a scansionare una pagina. Questo tempo deve essere il più basso possibile; se è troppo lungo il bot potrebbe addirittura interrompere la scansione, oppure posizionare male quella pagina perché poco fruibile. Occorre quindi ottimizzare le pagine;
  • Contenuti incorporati, come CSS e JavaScript, potrebbero essere sottoposti a scansione e quindi “consumare” crawl budget (perché i crawler faticano a scansionarli correttamente).

Il crawl budget assegnato da Google può essere monitorato tramite Search Console. In questo modo è possibile capire quante volte Googlebot scansiona il nostro sito e quanto tempo impiega per il download, per poter mettere in pratica le dovute correzioni e ottimizzare le prestazioni.

Uno spin-off: il crawl limit

Googlebot è progettato per essere un buon cittadino del web.

Così afferma Google intendendo che, anche se il compito del bot è scansionare e indicizzare le pagine, questo non andrà mai a scapito dell’esperienza dell’utente su un dato sito. Ovvero, il bot cerca di svolgere il suo lavoro nel modo meno “rumoroso” e impattante possibile. Il crawl limit rappresenta il numero di connessioni parallele massimo che il bot sfrutta per scansionare il sito, come anche il tempo che passa tra una scansione e l’altra. Questo limite varia in base a due fattori:

  • Qualità del sito: se il sito risponde velocemente, il limite si alza e il bot usa più connessioni simultaneamente;
  • Parametri di Search Console: è possibile abbassare “manualmente” il limite del proprio sito tramite Search Console.

Cosa influisce sul crawl budget?

Il crawl budget, di per sé, non è un fattore di posizionamento diretto, ma certamente influenza molto la visibilità della nostra pagina in SERP. Se abbiamo un sito molto grande o che aggiorniamo spesso, sarebbe bene assicurarsi che il bot passi di frequente, per mostrare il contenuto nuovo agli utenti. Le pagine scansionate di recente, poi, hanno migliori possibilità di posizionarsi bene.

Bisogna assicurarsi che non venga sprecato crawl budget su pagine poco importanti, perché questo limiterebbe la possibilità di Google di scansionare le pagine che sono invece davvero rilevanti. Ci sono diversi parametri che influiscono sul crawl budget, soprattutto in maniera negativa:

  • Parametri url diversi che portano però alla stessa pagina – ad esempio, negli e-commerce, i vari filtri prodotto. In questo caso è bene usare i canonical per far indicizzare a Google un solo URL;
  • Contenuti duplicati sul sito;
  • Pagine con errori 404;
  • Contenuti CSS e JavaScript;
  • Contenuti di bassa qualità, o contenuti spam;
  • Mancanza di link interni.

Consigli per ottimizzare il crawl budget

Esistono diverse strategie per aumentare il crawl budget, e quindi il tempo che Googlebot dedica a scansionare i nostri contenuti. Occorre chiarire che, naturalmente, ha senso applicare queste strategie se si propongono contenuti aggiornati e di qualità; è inutile cercare di convincere Google a tornare a scansionare un sito che non ha niente da offrire. Tra i vari metodi segnaliamo:

  • Qualità: i contenuti devono essere nuovi, informativi e utili. Il ranking del sito incide molto, quindi avere molti backlink – e di qualità – aiuta il nostro sito a essere autorevole e ad assicurare la rilevanza dei contenuti;
  • Frequenza: è bene aggiornare i contenuti – quando questo ha senso, ovviamente. Se Google visita il sito giornalmente e vede sempre nuovi contenuti, ridurrà il tempo di scansione e tornerà più spesso a visitarlo;
  • Velocità del sito: se il sito è veloce e ottimizzato, se il tempo trascorso per il download è il più breve possibile, il server darà più velocemente a Googlebot la pagina richiesta, e le pagine sottoposte a scansione aumenteranno;
  • Usare i file robots.txt: servono a fare in modo che il bot non scansioni pagine che contengono i tag “noindex” o “canonical”. Ad esempio, come abbiamo visto, pagine diverse che hanno lo stesso URL;
  • Inserire la sitemap in Google Search Console, ovvero un file guida che indichi a Google le pagine importanti del sito, e quanto spesso vengono aggiornate;
  • Eliminare contenuti duplicati;
  • Creare documenti HTML semplici e lineari.

E per quanto riguarda le pagine che incorporano CSS e JavaScript? E per la ricerca mobile?

Remember, remember, mobile index and render

Dal 1° luglio 2019 Google ha lanciato il Mobile First Indexing. Cosa significa? Significa che a partire da quella data per i nuovi siti web (o per quelli prima non noti), Google utilizzerà la versione mobile del sito per indicizzazione e ranking.

Googlebot ora scansiona e indicizza le pagine soprattutto – e prima di tutto – con lo smartphone agent, dopodiché analizza il sito anche per la versione desktop e provvede a indicizzarne i contenuti in SERP. La versione mobile del proprio sito è quindi molto importante e deve essere ottimizzata sia nella UX che nei tempi di caricamento; il crawl budget non va sprecato, quindi bisogna mostrare a Google che il nostro sito è responsive e merita posizione alte in SERP.

Googlebot e crawl budget: una guida in pochi passi
Moz spiega con una semplice grafica come Google indicizza la pagina di un sito web.

Tra i punti deboli dei bot ci sono le componenti aggiuntive, come CSS e JavaScript. Come afferma la stessa Google, “attualmente è difficile elaborare JavaScript e non tutti i crawler dei motori di ricerca sono in grado di elaborarlo correttamente o immediatamente”. Per siti che fanno un uso massiccio di JS questo potrebbe causare problemi di indicizzazione e crawling. Per ovviare a questo problema, Google suggerisce il rendering dinamico. Come funziona?

  1. Il tuo sito deve innanzitutto rilevare l’accesso del web-crawler (ad esempio con il controllo dello user-agent);
  2. Le richieste del crawler (Googlebot in questo caso) vengono quindi reindirizzate a un renderer;

Se necessario – ovvero se c’è molto contenuto JS – il renderer “pubblica” una versione dei contenuti adatta al crawler, ad esempio una versione HTML statica. Si può attivare un renderer dinamico per tutte le pagine oppure uno specifico per pagina.

Googlebot e crawl budget: una guida in pochi passi
La semplice spiegazione grafica fornita da Google per chiarire il dynamic rendering.

 

 

Hai bisogno di ottimizzare il tuo sito in ottica SEO o di realizzare un sito responsive che tenga in considerazione un’ottima fruibilità e abbia la migliore indicizzazione possibile? Rivolgiti al team di specialisti di NUR Digital Marketing e insieme troveremo la soluzione più adatta alle necessità del tuo business online.

Trasforma la tua azienda con strategie digital vincenti. Chiedi la tua consulenza gratuita.
Crea la tua strategia