Sempre più siti bloccano l’accesso ai crawler di LLM
### L’Analisi di Hostinger: Crescita dei Crawling da Parte dei Assistenti AI e Blocco delle AI per il Training Recentemente, Hostinger ha pubblicato un’analisi sorprendente che rivela come le aziende stiano bloccando i sistemi AI impiegati per addestrare i modelli di linguaggio, mentre gli assistenti AI continuano ad accedere e riassumere contenuti da un numero […]
### L’Analisi di Hostinger: Crescita dei Crawling da Parte dei Assistenti AI e Blocco delle AI per il Training
Recentemente, Hostinger ha pubblicato un’analisi sorprendente che rivela come le aziende stiano bloccando i sistemi AI impiegati per addestrare i modelli di linguaggio, mentre gli assistenti AI continuano ad accedere e riassumere contenuti da un numero crescente di siti web. Questa analisi è stata condotta su un campione di 66,7 miliardi di interazioni bot attraverso 5 milioni di siti web e ha evidenziato l’evoluzione delle modalità di accesso alla rete da parte dei crawler.
#### I Risultati dell’Analisi
Hostinger, un provider di hosting web che offre anche una piattaforma senza codice per costruire aziende online, ha esaminato i log dei siti web in forma anonima per misurare come i crawler verificati accedano ai siti a scala. I dati sono stati raccolti durante tre periodi di sei giorni nel giugno, agosto e novembre del 2025.
I risultati mostrano che i crawler degli assistenti AI hanno ampliato significativamente il loro raggio d’azione. Ad esempio, il crawler di OpenAI, il SearchBot, è passato dal coprire il 52% dei siti al 68%, mentre l’Applebot ha raddoppiato la sua copertura dal 17% al 34%. In contrasto, i crawler di ricerca tradizionali hanno mantenuto una stabilità nel loro accesso. Questo suggerisce che gli assistenti AI stanno offrendo un nuovo strato di accesso alle informazioni piuttosto che sostituire completamente i motori di ricerca.
#### Un Paradosso Rivelato
Tuttavia, l’analisi ha anche rivelato un paradosso allarmante: mentre i crawler degli assistenti AI stanno ampliando la loro copertura, le aziende stanno drasticamente riducendo l’accesso per i crawler dedicati al training dell’AI. Il crawler GPTBot di OpenAI, ad esempio, ha visto la sua accessibilità diminuire dall’84% dei siti ad appena il 12% in soli tre mesi.
Questa situazione pone interrogativi sul futuro dei modelli di linguaggio e sulla conoscenza parametrica, ovvero le informazioni “hard-coded” nel modello stesso durante il training. Quando un sito blocca un bot di training, impedisce all’AI di apprendere informazioni critiche su di esso, il che potrebbe rivelarsi controproducente per aziende che desiderano mantenere una certa visibilità nel panorama digitale.
#### Conoscenza Parametrica e Il Suo Impatto
La conoscenza parametrica rappresenta una memoria a lungo termine su entità come persone, aziende e prodotti. Quando un modello di linguaggio (LLM) risponde a domande, può attingere a informazioni memorizzate, ma le aziende che bloccano i bot di training rischiano di privare i LLM delle informazioni che potrebbero aiutarli a rappresentare accuratamente i loro servizi e prodotti.
Hostinger ha osservato che le aziende stanno attivamente scegliendo di escludere i bot di training, il che le porta a optare per non fornire contenuti di prima mano su cui gli LLM potrebbero formarsi. Ciò si traduce in una dipendenza dai dati di terze parti o dalle knowledge graphs, limitando la loro capacità di raccontare la propria storia.
#### Riflessioni Sul Futuro della Visibilità Aziendale
Inoltre, la crescente disponibilità di assistenti AI che rispondono direttamente alle domande può ridurre il traffico diretto verso i siti web, ostacolando la diffusione di informazioni cruciali come dettagli sui prezzi e messaggi di branding. Le aziende che bloccano l’accesso a questi sistemi potrebbero trovarsi in una posizione svantaggiata, affidandosi esclusivamente ai crawler di ricerca tradizionali che potrebbero non avere la stessa efficacia nel fornire visibilità.
Tomas Rasymas, Head of AI di Hostinger, ha commentato: “Con gli assistenti AI sempre più capaci di rispondere direttamente alle domande, il web sta passando da un modello basato sui click a uno mediato da agenti. Il rischio reale per le aziende non è tanto l’accesso all’AI, ma la perdita di controllo su come il prezzo, il posizionamento e il valore sono presentati durante il processo decisionale.”
#### Conclusione
Bloccare l’accesso degli LLM ai dati provenienti dai siti web non dovrebbe essere la posizione predefinita da adottare, nonostante il timore diffuso per la formazione su contenuti proprietari. È utile adottare un approccio più ponderato, considerando i benefici e le possibili conseguenze negative, e riflettendo su quanto queste ultime siano reali o soltanto percepite.
L’analisi di Hostinger rappresenta un importante punto di partenza per ulteriori discussioni sulle strategie da adottare nel contesto in continua evoluzione delle tecnologie AI e della loro interazione con il mondo digitale.
admin