Google scopre e indicizza i siti web in modo automatico, classificandoli secondo dei sistemi di ranking.
Può capitare però che, per vari motivi, Google non prenda in considerazione il sito o parti di esso (ad esempio articoli, schede prodotto, categorie). Per ovviare a ciò occorre prendere degli accorgimenti per favorire l’indicizzazione.
I motivi per cui un sito non viene indicizzato da Google possono essere tanti, ma se il sito è appena nato, la mancata indicizzazione potrebbero dipendere da questo.
Indice
Google assicura che se un sito è costruito seguendo i canoni del web, cioè le linee guida richieste dal motore stesso, non ci dovrebbero essere problemi: di norma si viene indicizzati entro le due settimane in modo naturale.
Ma l’indicizzazione di per sé è solo il primo passo.
L’indicizzazione riguarda proprio la quantità di contenuti del tuo sito presenti nell’indice; l’ottimizzazione e il posizionamento riguardano la qualità dell’indicizzazione.
Cioè quanto il sito è in grado di essere trovato su Google per le ricerche degli utenti che sono rilevanti per i contenuti presenti sullo stesso sito web.
Verifica la presenza del sito nell’indice di Google
- Scrivi su Google: “site:esempio.com” senza virgolette e sostituendo il nome del tuo sito a quello di comodo dell’esempio.
Se il tuo sito non esce, o non ci sono tutte le pagine e gli articoli che hai pubblicato, ed è più vecchio di un mese, può esserci un problema.
In generale, la soluzione migliore è verificare tutto creando un account su Google Search Console per verificare lo stato di indicizzazione.
Inserisci il sito su Google con Search Console
L’indicizzazione di base avviene normalmente nel giro di pochi giorni. Se il sito è fatto bene e pubblica contenuti, Google prima o poi lo indicizzerà.
Ma se si vuole velocizzare l’indicizzazione puoi comunicare a Google la pubblicazione dei contenuti.
Il metodo più rilevante è verificare il sito tramite Google Search Console.
Google Search Console è una piattaforma diagnostica fornita da Google gratuitamente, alla quale si può accedere facendo login con la propria casella GMAIL.
Il procedimento di verifica è semplice.
- Vai su Google Search Console (basta anche cercarlo su Google e cliccare).
- Clicca su inizia ora ed accedi tramite i dati della tua casella di posta gmail, se non sei già collegato.
- Aggiungi il tuo sito nel modulo chiamato Prefisso URL, scrivendo il nome del dominio in modo completo (es.: https://www.tuosito.com)
- Effettua la verifica.
La verifica è importante e richiede una minima conoscenza tecnica. Google offre alcune alternative per effettuarla. Le più comuni sono:
- Scaricare un file html e inserirlo nella root del sito, per farlo trovare da Google.
- Incollare un tag nella sezione head del sito.
Su WordPress, Wix e nei principali CMS di e-commerce è proprio la seconda opzione quella più usata.
Su WordPress è sufficiente cercare nelle opzioni dei principali plugin SEO, trovando la verifica di Google Search Console e incollando il tag fornito da Google:
Su Wix c’è un’area dedicata nelle impostazioni SEO, vale lo stesso per Prestashop, Magento e Shopify.
Una volta incollato il tag fornito da Google è sufficiente tornare nella schermata di Google Search Console e completare il passaggio del punto 2.
Fai clic su Verifica Sotto.
Ti dovrebbe comparire una finestra di conferma con una spunta verde di avvenuta verifica.
Puoi effettuare questo procedimento di verifica in altri modi, esempio caricando un file via ftp o ripetendo l’operazione con il tag html, ma installando un plugin SEO.
Nel caso dei plugin SEO trovi la voce Istruzioni o Strumenti per Webmaster o simili nei vari menu, dove potrai incollare il tag html, seguendo la procedura di cui sopra.
Il plugin SEO prima o poi ti servirà, quindi puoi direttamente procedere con esso, scegliendo tra le opzioni più comuni (RankMath, All in One, Yoast SEO).
La cosa migliore da fare, dopo la verifica, è comunicare la sitemap del sito.
Ancora una volta: se utilizzi WordPress puoi ottenere la sitemap XML tramite plugin, inclusi quello SEO.
Dal menu di Google Search Console è sufficiente andare alla voce Sitemap e aggiungerla come nella figura qui sotto:
Di solito la sitemap ha come formato sitemap.xml o sitemap_index.xml, dipende dal plugin che installi. Dopo averla aggiunta nella casella in alto, clicchi INVIA e Google la riceve.
Google Search Console è un valido strumento di diagnostica, per cui ti comunica in modo corretto il livello di indicizzazione, dalla sezione Pagine.
Google non è obbligato a indicizzare il tuo sito. Puoi accelerare questo meccanismo usando un plugin SEO premium, che utilizza le API di Google Search Console per richiedere l’indicizzazione di una pagina specifica.
Oppure, sempre usando Search Console, sfruttando lo strumento di controllo URL:
Le operazioni illustrate sopra hanno il compito di avvisare Google dell’esistenza del sito o di nuovi contenuti dello stesso, disponendolo per l’indicizzazione.
Se fai questo procedimento di verifica su Search Console molto tempo dopo aver creato il sito, non sorprenderti di trovarlo già indicizzato, almeno in parte.
Google Search Console ti fornirà anche il livello dell’indicizzazione, cioè la qualità della stessa tramite il posizionamento.
Nella sezione Rendimento vedrai su quali ricerche il sito si posiziona e che traffico sviluppa. Qui puoi decidere se hai bisogno di fare più ottimizzazione e in generale svolgere operazioni di posizionamento (da soli o con l’ausilio di una consulenza SEO professionale).
Può capitare però che dopo queste operazioni di verifica, il sito abbia problemi e non venga indicizzato.
La sezione Pagine di Google Search Console serve proprio a questo:
Google ti manda avvisi via mail, tramite Search Console, indicandoti la natura problemi, che poi elenca nella sezione Perché le pagine non sono indicizzate.
Ti segnala:
- Pagine con reindirizzamento, cioè contenuti che sono reindirizzati tramite REDIRECT verso altri contenuti (esempio: un articolo vecchio ora reindirizza a uno più aggiornato).
- Pagina alternativa con tag canonical appropriato: cioè esiste una pagina alternativa a una già esistente, che viene dichiarata come principale tramite l’uso del tag canonical (esempio: hai due pagine simili, ma ti interessa che solo una vada su Google e quindi inserisci come canonica la principale, anche nel tag canonical della secondaria. È complicato da spiegare, ma può capitare).
- Pagina duplicata non-HTML: esempio hai una pagina in formato stampa o PDF e Google preferisce questa.
- Esclusa in base al tag “noindex”: in pratica hai fornito, volontariamente o involontariamente, una istruzione di non indicizzare a Google.
- Non trovata con errore 404: la pagina non è presente su Google perché ha restituito un errore 404, cioè non trovata. Non è un problema, se hai deciso di cancellare la pagina di tua iniziativa. Se Google lo segnala è perché la pagina è ancora presente sull’indice. In questo caso, se viene segnalato un eccesso di errori 404 soft (leggeri) è importante comunicare a Google se le pagine sono state rimosse di propria iniziativa oppure spostate altrove.
- Pagina scansionata ma attualmente non indicizzata: verifica la bontà del contenuto, se il sito offre una buona esperienza di navigazione, se quello che è presente è attendibile, se hai buoni link in entrata.
- Pagina rilevata ma non attualmente indicizzata: in questo caso Google ha scoperto la pagina, ma ha deciso che non valeva la pena indicizzarla. È la situazione peggiore, devi ottimizzare al meglio la pagina e in generale aumentare l’autorevolezza del dominio.
Tipiche cause di mancata indicizzazione
Manca la sitemap XML
La sitemap XML è un protocollo accettato da tutti i motori di ricerca per aiutarli a capire meglio la struttura interna del tuo sito, l’alberatura, e quindi indicizzarlo al meglio.
Come detto sopra occorre generarla e comunicarla a Google via Search Console. La sua assenza può far perdere opportunità di indicizzazione completa.
Ci sono errori nel file robots o file robots mancante
Anche questo file, come la sitemap, svolge un ruolo importante nell’indicizzazione perché può contenere delle direttive di blocco per il motore di ricerca.
Immagina il file robots.txt come un manuale di istruzioni che dice al motore di ricerca cosa fare. In particolare, escludere intere sezioni dall’indicizzazione perché non vuoi che vengano rese pubbliche su Google.
Di norma capita che sia Google a impedire l’indicizzazione di una pagina, per i motivi detti sopra. Ma con il file robots.txt – anche senza che tu te ne accorga – sei tu a bloccare Google.
L’assenza di un file robots.txt viene subito segnalata da Google Search Console e puoi verificarla inserendo robots.txt alla fine del tuo dominio (example.com/robots.txt).
WordPress genera un file robots.txt virtuale, nel caso non lo si aggiunga manualmente e accade lo stesso anche con Wix.
Puoi sempre farlo valutare da Google Search Console, tramite il tester del file robots.
Le impostazioni dei meta robot bloccano il sito
Il tipo di blocco generico dato dal file robots.txt, può essere presente in maniera specifica su una o più pagine, ma sotto forma di meta tag. Quindi di una istruzione presente proprio in quella pagina.
Parliamo dei meta tag robot, che sono direttive specifiche e riferibili alla pagina (file) in cui sono presenti.
Mentre il file robots.txt sbarra la strada di una cartella o di un file ancora prima di entrarci, con i meta tag robot lo si fa entrare (crawling) per effettuare la scansione, ma dandogli un’istruzione precisa su cosa fare una volta entrato.
Cosa vuol dire noindex, nofollow
“Noindex, nofollow” indica ai motori di ricerca di non indicizzare la pagina nei risultati di ricerca e di non seguire i link presenti in essa.
Se una o più pagine o addirittura l’intero sito è impostato su questa direttiva, Google lo ignora e non lo indicizza. Di default, i siti hanno index, follow (indicizza, segui) impostato. Quindi sarebbe molto strano se fosse il contrario, ma è bene controllare cercando nel sorgente html della pagina.
Ti basta perciò cliccare con tasto destro sulla pagina, aprire menu “Visualizza Sorgente” oppure cliccare la combinazione ctrl+U o cmd+U su Mac.
Se utilizzi WordPress questa impostazione generale è presente nel menu Impostazioni > Lettura da bacheca. Come nell’immagine.
Il sito è troppo lento
I fattori che impattano sulla velocità sono tanti, ma esistono almeno due risorse gratuite che possono aiutare a impostarli al meglio.
Entrambi di danno una mano a ottenere dei buoni punteggi di Core Vitals, i segnali web essenziali che testimoniano l’esperienza di navigazione dell’utente in base a vari parametri.
È importante eseguire questi test proprio per evitare che il pubblico, frustrato dalla lentezza, abbandoni le pagine del tuo sito ancor prima di leggerle. E capita parecchio dinanzi a un sito web poco reattivo.
Sono presenti duplicazioni
Un altro problema di indicizzazione potrebbe essere dovuto alla presenza in massa di duplicazioni.
- Duplicazioni di contenuto presente altrove o già presente sul sito.
- Duplicazioni dei meta tag title o ripetizione costante della base dell’URL.
Il primo caso è più diffuso di quanto si pensi. I proprietari dei siti a volte non si preoccupano di copiare interi testi da altri siti, ad esempio da Wikipedia, o da libri indicizzati su Google Books o ancora da altri siti, credendo che non ci saranno problemi, ma si sbagliano.
Il secondo caso è più subdolo nel senso che il proprietario del sito può andarci incontro involontariamente.
Può capitare negli e-commerce, dove le varietà dei prodotti possono variare di poco, o in siti in Worpdress privi di plugin SEO come Yoast, AIOS o RankMath.
Meta tag troppo ripetitivi e già presenti in massa possono fornire a Google delle informazioni contraddittorie e non decisive, lasciandolo nel limbo circa le pagine da indicizzare.
Anche indirizzi delle pagine molto simili possono portare alla cannibalizzazione, nel senso che un contenuto si mangia l’altro perché sono troppo simili, risultando nella mancata indicizzazione del più debole.
Un controllo sulla iterazione dei title tag e delle URL può essere svolto tramite tool professionali come Screaming Frog SEO Spider.
Questo è probabilmente il tool più importante in materia di indicizzazione e segnalazione di errori tecnici, anche se a pagamento e destinato ai professionisti del settore.
La soluzione in questo caso, oltre all’intervento manuale, e a una scelta preventiva di NON fare indirizzi delle pagine tutte uguali e variare molto i title, è quello di usare il tag canonical.
Questa funzione di norma è già inclusa nei plugin SEO, ma Google fornisce un’adeguata spiegazione del perché usarlo.
Soprattutto negli e-commerce e nei siti di grandi dimensioni, più soggetti ad andare incontro a questo tipo di problemi.
Violazione delle linee guida di Google
Se il sito inizia a perdere indicizzazione o non ne raggiunge affatto, può essere che stai violando le linee guida di Google, in particolare per quanto riguarda il link building (cioè la creazione di link in entrata, che attribuiscono un punteggio all’autorevolezza del sito).
Google punisce alcune pratiche scorrette e prima o poi può avvisarti via Search Console della presenza di un’Azione Manuale.
La “penalizzazione” può essere algoritmica, sotto forma di un ricalcolo verso il basso, senza bisogno di subire un’azione manuale.
L’algoritmo ti punisce e il sito perde posizioni o addirittura alcune sezioni scompaiono (vengono deindicizzate).
Presenza di malware e attacchi hacker
Google può escludere temporaneamente i contenuti di un sito dall’indice se questo è stato compromesso da un attacco hacker, distribuisce malware o viola delle leggi.
Il contenuto non è migliore di quello già presente
Google può scegliere di ignorare una nuova pagina, se considera migliore una vecchia già indicizzata, che tratta lo stesso argomento.
In particolare, nelle linee guida sui Core Update, Google fa riferimento a contenuti creati allo scopo di “rispecchiare” delle variazioni di ricerca già simili ad altre, con lo scopo di occupare le SERP. In molti casi non ne vale la pena, e Google procederà a ignorare il nuovo contenuto.
Il sito non ha contenuti di valore
Il tuo sito semplicemente non è una risorsa utile, non aggiunge nulla a ciò che è già presente in rete, per cui nemmeno intercetta l’intento dell’utente.
Hai quindi contenuti di bassa qualità, che andrebbero rivisti e sottoposti nuovamente a scansione (sfruttando lo strumento “Controllo URL” su Google Search Console).
Recuperare vecchi contenuti e aggiornarli, creando sempre dei collegamenti con i nuovi, è un buon metodo per aumentare i livelli di indicizzazione del sito.
Compattarli intorno a un unico argomento migliora il rendimento.
Altri motivi per cui il sito non è indicizzato su Google
Se c’è un problema di indicizzazione del sito su Google, oltre ai motivi sopra esposti, potrebbe dipendere dalla natura del sito o dalla sua qualità complessiva.
- Il tuo sito contiene informazioni datate e non aggiornate e non più utili nel tempo.
- Non sono presenti ottimizzazioni, sono presenti errori soft 404 non corretti via Search Console (ovvero dichiarati “contenuti eliminati”).
- Sono presenti molti errori HTML, collegamenti spezzati.
- Il sito ha una pessima navigazione interna e una grafica dispersiva.
- Il sito ha troppe pubblicità nella parte superiore.