Perché Google Indicizza le Pagine Web Bloccate

Perché Google indicizza le pagine web bloccate Nel mondo del SEO, una delle domande più frequenti riguarda il motivo per cui Google indicizza delle pagine che sono state bloccate dal crawling tramite robots.txt. E’ importante capire perché ciò avvenga e perché è sicuro ignorare i report correlati presenti su Search Console riguardo a tali indicizzazioni. […]

Sep 6, 2024 - 11:30

0 36

Perché Google indicizza le pagine web bloccate

Nel mondo del SEO, una delle domande più frequenti riguarda il motivo per cui Google indicizza delle pagine che sono state bloccate dal crawling tramite robots.txt. E’ importante capire perché ciò avvenga e perché è sicuro ignorare i report correlati presenti su Search Console riguardo a tali indicizzazioni.

Recentemente, John Mueller di Google ha risposto a una domanda riguardante questa pratica. La persona che ha posto la domanda ha documentato che dei bot stavano creando dei link ad URL con parametri di query non esistenti (?q=xyz) verso pagine che presentano tag meta noindex e che sono bloccate nel robots.txt. Ciò che ha spinto a porre la domanda è il fatto che Google stia comunque indicizzando i link verso tali pagine, nonostante vengano bloccati dal robots.txt (senza visualizzare un tag meta noindex) e vengano segnalati su Google Search Console come “Indicizzati, sebbene bloccati dal robots.txt”.

La domanda principale era: “Ma quale sarebbe il vantaggio per Google nell’indicizzare delle pagine quando non possono nemmeno vedere il contenuto?”. Mueller ha confermato che se non possono fare crawling della pagina, non possono vedere il tag noindex. Inoltre, ha suggerito di ignorare i risultati ottenuti tramite l’operatore di ricerca site:, poiché un utente medio non li vedrà.

Da questa risposta emergono tre punti chiave da tenere a mente:

1. L’operatore di ricerca site: non può essere considerato completo né utilizzato per scopi diagnostici. Questo strumento limita i risultati alla specifica pagina web cercata, ma non rappresenta una collezione completa di tutte le pagine di quel sito.

2. Utilizzare il tag noindex senza utilizzare il robots.txt è accettabile in situazioni in cui un bot crea link a pagine inesistenti che vengono scoperte da Googlebot.

3. Le URL con il tag noindex genereranno una voce “crawled/not indexed” in Search Console, ma ciò non avrà un effetto negativo sul resto del sito web.

In conclusione, è importante comprendere il motivo per cui Google indicizza pagine bloccate e come gestire al meglio le situazioni in cui ciò accade. Ignorare i report non necessari e concentrarsi sul mantenere le pagine non indicizzate e non accessibili è la chiave per una efficace gestione della visibilità online.