Google ricorda ai siti web di utilizzare il file robots.txt per bloccare gli URL delle azioni

Google ricorda ai siti web di utilizzare il file robots.txt per bloccare gli URL di azione In un post su LinkedIn, Gary Illyes, analista di Google, ha ribadito una guida da tempo consolidata per i proprietari di siti web: utilizzare il file robots.txt per impedire ai web crawler di accedere agli URL che attivano azioni […]

Google ricorda ai siti web di utilizzare il file robots.txt per bloccare gli URL di azione

In un post su LinkedIn, Gary Illyes, analista di Google, ha ribadito una guida da tempo consolidata per i proprietari di siti web: utilizzare il file robots.txt per impedire ai web crawler di accedere agli URL che attivano azioni come aggiungere articoli al carrello o alla lista dei desideri.

Illyes ha evidenziato il comune lamento per il traffico inutile dei crawler che sovraccarica i server, spesso derivante dal fatto che i bot dei motori di ricerca esplorano gli URL pensati per le azioni degli utenti.

Ha scritto: “Guardando cosa stiamo esplorando dai siti delle segnalazioni, troppo spesso sono gli URL di azione come ‘aggiungi al carrello’ e ‘aggiungi alla lista dei desideri’. Questi sono inutili per i crawler e probabilmente non vuoi che vengano esplorati.”

Per evitare questo spreco di carico server, Illyes ha consigliato di bloccare l’accesso nel file robots.txt agli URL con parametri come “?add_to_cart” o “?add_to_wishlist”.

Come esempio, suggerisce: “Se hai URL come: https://esempio.com/prodotto/candela-profumata-v1?add_to_cart e https://esempio.com/prodotto/candela-profumata-v1?add_to_wishlist probabilmente dovresti aggiungere una regola di disallow per loro nel tuo file robots.txt.”

Anche se l’utilizzo del metodo POST HTTP può impedire l’esplorazione di tali URL, Illyes ha notato che i crawler possono comunque effettuare richieste POST, quindi robots.txt rimane consigliato.

Rafforzare le migliori pratiche vecchie di decenni

Alan Perkins, che ha partecipato alla discussione, ha evidenziato che questa guida riprende gli standard web introdotti negli anni ’90 per gli stessi motivi.

Citando da un documento del 1993 intitolato “A Standard for Robot Exclusion”: “Nel 1993 e nel 1994 ci sono stati casi in cui i robot hanno visitato server WWW dove non erano benvenuti per vari motivi… i robot hanno attraversato parti dei server WWW che non erano adatte, ad esempio alberi virtuali molto profondi, informazioni duplicate, informazioni temporanee, o script CGI con effetti collaterali (come voti).”

Lo standard robots.txt, che propone regole per limitare l’accesso dei crawler ben comportati, è emerso come soluzione “di consenso” tra gli stakeholder del web già nel 1994.

Obbedienza ed eccezioni

Illyes ha affermato che i crawler di Google rispettano pienamente le regole del robots.txt, con rare eccezioni documentate approfonditamente per scenari che coinvolgono “recuperi scatenati dall’utente o contrattuali.”

Questo rispetto del protocollo robots.txt è stato un pilastro delle politiche di indicizzazione web di Google.

Perché SEJ se ne preoccupa

Sebbene il consiglio possa sembrare rudimentale, il riemergere di questa pratica migliore vecchia di decenni sottolinea la sua rilevanza.

Sfruttando lo standard robots.txt, i siti possono contribuire a domare i crawler troppo zelanti che monopolizzano la larghezza di banda con richieste non produttive.

Come questo può aiutarti

Che tu gestisca un piccolo blog o una piattaforma di e-commerce importante, seguire il consiglio di Google di utilizzare robots.txt per bloccare l’accesso dei crawler agli URL di azione può aiutare in diversi modi:

– Riduzione del carico del server: puoi ridurre le richieste inutili al server e l’utilizzo della larghezza di banda impedendo ai crawler di colpire gli URL che attivano azioni come aggiungere articoli al carrello o alla lista dei desideri.
– Miglioramento dell’efficienza del crawler: fornire regole più esplicite nel file robots.txt su quali URL i crawler dovrebbero evitare può portare a un’indicizzazione e classificazione più efficiente delle pagine/contenuti che si desidera.
– Migliore esperienza utente: concentrando le risorse del server su azioni effettive degli utenti anziché sugli attacchi inutili dei crawler, gli utenti finali probabilmente avranno tempi di caricamento più veloci e funzionalità più lisce.
– Rimanere allineati agli standard: implementare il consiglio mette il tuo sito in conformità con gli ampiamente adottati standard del protocollo robots.txt, che sono state le migliori pratiche del settore per decenni.

Rivedere le direttive di robots.txt potrebbe essere un passo semplice ma incisivo per i siti web che cercano di esercitare un maggiore controllo sull’attività dei crawler. Il messaggio di Illyes indica che le regole antiche del robots.txt rimangono rilevanti nel nostro ambiente web moderno.