Indicizzazione sui motori di ricerca, una frase fin troppo abusata da chi vuole vendere servizi SEO a clienti poco esperti e desiderosi di ottenere visibilità online.

Sul mio blog ho parlato più volte di questo argomento ma credo di non averlo mai trattato in maniera esaustiva, l’idea che qualcuno vendesse l’indicizzazione ai propri clienti mi ha sempre irritato (google indicizza da solo se sa che un sito esiste) ed il mio stato d’animo mi ha sempre portato a parlare solo del discorso economico, ossia che nessuno dovrebbe pagare un’agenzia per fare indicizzare il proprio sito web.

Ora vorrei affrontare il discorso dell’indicizzazione dal punto di vista concettuale e tecnico e fornire qualche informazione utile per migliorare il processo di indicizzazione delle pagine del proprio sito web. L’approccio sarà quello della domanda e breve risposta, i concetti sono semplici ed è inutile dilungarsi troppo.

Cos’è l’indicizzazione su Google

Google analizza milioni di siti web e ne cataloga le pagine web nel proprio indice (elenco di pagine web). Dire che una pagina web è indicizzata significa che Google la conosce, l’ha navigata ed ha salvato l’indirizzo nel proprio indice, tutto qui, semplicemente Google è a conoscenza che la pagina esiste.

Come fa Google ad indicizzare le pagine web

Una pagina web per essere indicizzata deve essere raggiungibile dallo spider di Google. Se un sito web ha una struttura di navigazione che dalla HomePage si sviluppa ad albero navigando tutte le sezioni/categorie/pagine ed i collegamenti sono in html semplice come LINK (<a href=”indirizzo”>) , allora la pagina potrà essere facilmente raggiunta ed indicizzata.

Google naviga la Home Page, individua tutti i link e naviga le pagine collegate e ripete lo stesso controllo finchè non avrà navigato tutte le pagine del sito web. Se una pagina non è collegata nel flusso che va dalla home alle sottosezioni non sarà mai visibile per il motore di ricerca.

Cosa può bloccare l’indicizzazione delle pagine

L’indicizzazione delle pagine di un sito web può essere bloccata volontariamente o per errori nel file robots.txt oppure da una struttura di navigazione errata. Di seguito vediamo in che modo l’indicizzazione viene bloccata:

  1.  Blocco volontario, parziale o totale delle pagine web allo spider di Google
    Utilizzando il file robots.txt (nella root del sito) possiamo segnalare allo spider di Google quali pagine debbano essere indicizzate o meno.
    Qui potete trovare maggiori informazioni a riguardo: https://support.google.com/webmasters/answer/156449?hl=it
  2. Manu di navigazione in Flash o tramite compilazione di form
    Google Bot è in grado di navigare solo ed esclusivamente link standard (come quello che vi ho fornito nel punto precedente). Se un sito web dispone solo ed esclusivamente di una interfaccia di navigazione in FLASH oppure le pagine sono raggiungibili solo tramite la compilazione di un form filtro di ricerca, sappiate che Google non ci arriverà mai e non potrà indicizzare le pagine.
  3. Configurazione errata dei parametri URL in webmaster Tools di Google
    Da questa sezione di webmaster Tools è possibile dire a Google Bot cosa deve indicizzare e cosa no a seconda dei parametri che incontra nelle URL del sito. E’ una funzione molto utile ma va usata da utenti esperti che sappiano esattamente cosa stanno facendo.
  4. Errore comune, dimenticare il robots.txt che avete utilizzato in fase di sviluppo del sito sul vostro server interno.
    Generalmente i programmatori, per evitare che il sito venga indicizzato da Google in fase di sviluppo sui server di test, creano il file robots.txt negando l’accesso a qualsiasi indirizzo del sito per Google Bot. Mi è capitato di essere contattato da nuovi clienti che non vedevano il prorpio sito web indicizzato dopo 3 mesi dalla pubblicazione proprio per questa stupida dimenticanza.

Cosa può rallentare l’indicizzazione delle pagine

Altro problema comune è la lentezza di indicizzazione dei contenuti da parte di Google. Di seguiro vi elenco alcuni esempi di problemi che rallentano l’indicizzazione delle pagine:

  1. Numero elevatissimo di pagine web e struttura di navigazione inadeguate per esporle al bot
    Se il vostro sito web ha numerosissime pagine web Google avrà bisogno di molte risorse e tempo per navigarle tutte ed è di vitale importanza tracciare in maniera chiara “la strada da fargli percorrere” per raggiungerle con facilità. Se possibile utilizzare il file sitemap.xml ed aggiornarlo tempestivamente quando si pubblicano nuovi contenuti.
  2. Numero elevatissimo di pagine di cui molte con il META NOINDEX per evitare duplicati
    La pratica è corretta, va bene non fare indicizzare a Google pagine che ritenete sostanzialmente inutili o duplicate ma sarebbe anche il caso di dire al Google Bot di non navigarle affatto. Utilizzare il META NOINDEX è un modo per dire al Google Bot (quando naviga la pagina) che non deve inserirla nell’indice ma se le pagine da non indicizzare sono veramente tante bisogna trovare una soluzione per evitare di fargliele navigare in modo da sfruttare il tempo che ci viene dedicato da Google per indicizzare le pagine che ci interessa vedere nei risultati di ricerca.
  3. Scarsa visibilità per i nuovi contenuti che vengono indicizzati dopo giorni e giorni
    Google effettua una scansione completa del sito web solo poche volte al mese quindi se volete che i nuovi contenuti siano indicizzati velocemente avete due strade. La prima è di linkare i contenuti nuovi da Home Page (Google la visita più di frequente), oppure aggiornare costantemente la sitemap XML.

Come migliorare l’indicizzazione

Le problematiche legate ad una indicizzazione errata delle pagine web possono essere veramente tantissime e molte potrebbero anche essere nascoste in errori di progettazione del layout del sito che non sono facilmente individuabili. Di seguito vi elencherò alcuni consigli o meglio “best practices” per avere una buona indicizzazione ma sono certo che l’inesperienza di tanti web designers/programmatori possa generare altri complicati labirinti da cui Google Bot non riuscirà mai ad uscire.

  1. Imparate ed utilizzare bene il file robots.txt
    Con il file robots avrete la possibilità di precludere l’accesso a pagine web che già sapete non voler indicizzare. Escludere l’accesso al Google Bot è importantissimo perchè potrete utilizzare il tempo che vi è stato destinato per fare qualcosa di meglio che navigare pagine web che non vi interessano. Diciamo che farete un piacere a lui (non facendogli sprecare risorse) ed al vostro sito web (facendo indicizzare più velocemente le vostre pagine).
  2. Utilizzate un menu di navigazione in HTML e se volete funzionalità carine utilizzate JQuery
  3. Evitate menu di navigazione in Flash, google bot non può navigarli
  4. Se avete un sito web le cui pagine sono risultati di ricerca raggiungibili solo dopo la compilazione di una form vi consiglio di creare dei link HTML almeno alle ricerche più importanti. Se ad esempio avete un sito turistico e dalla form si può selezionare TIPOLOGIA STRUTTURA, LOCALITA’, SERVIZI HOTEL sarà sicuramente utile creare un link ad una pagina /hotel-3-stelle-capri-con-piscina.html dove “hotel 3 stelle” è la tipologia, “capri” la località e “piscina” il servizio. Per ottenere un risultato del genere dovrete utilizzare l’URL REWRITING nel metodo che vi permette di utilizzare il vostro Server/Script.
  5. Creare uno o più file di Sitemap XML a seconda del numero di pagine del sito. Quando sono tante potrebbe essere comodo spezzettare il tutto in più file sitemap.
  6. Far ruotare gli utlimi articoli pubblicati in Home Page. Questa pratica non solo fa indicizzare più velocemente i nuovi contenuti ma gli da anche “importanza” e la spinta iniziale in quanto collegati dalla pagina “più importante” del sito.
  7. Pubblicare i contenuti con costanza è fondamentale perchè Google Bot tara la propria velocità di scansione con la vostra velocità di pubblicazione. Se il bot passa sul vostro sito dopo 7 giorni e non trova nulla, la prossima volta passerà dopo 10 giorni. Se invece ogni volta che passa trova nuovi contenuti allora proverà a passare più spesso.
  8. Organizzare la struttura di navigazione del sito come se fosse una sitemap HTML perfettamente gerarchica navigabile da Google

Miliorare l’indicizzazione di un sito web è uno degli aspetti fondamentali dell’ottimizzazione SEO ed è il primo passo importante per farsi vedere e valutare da Google. Spesso il problema principale di siti web poco visibili è proprio l’occultamento involontario dei contenuti a Google Bot, per siti web con tanti contenuti una buona ottimizzazione SEO potrebbe veramente fare la differenza, ho case study di siti web che sono passati da 150 visitatori giornalieri a più di 7000 solo migliorando la struttura di navigazione e rendendo visibili contenuti che erano praticamente chiusi in una cassaforte.