Studio di Hostinger: il crawler di ricerca di OpenAI supera il 55% di copertura

### OpenAI Search Crawler supera il 55% di copertura in uno studio di Hostinger Hostinger ha analizzato 66 miliardi di richieste da bot su oltre 5 milioni di siti web, scoprendo che i crawler AI seguono due traiettorie distinte. I bot di addestramento per i modelli linguistici (LLM) stanno perdendo accesso al web, poiché sempre […]

### OpenAI Search Crawler supera il 55% di copertura in uno studio di Hostinger

Hostinger ha analizzato 66 miliardi di richieste da bot su oltre 5 milioni di siti web, scoprendo che i crawler AI seguono due traiettorie distinte. I bot di addestramento per i modelli linguistici (LLM) stanno perdendo accesso al web, poiché sempre più siti li bloccano, mentre i bot di assistenza che alimentano strumenti di ricerca come ChatGPT stanno espandendo la loro portata.

L’analisi si basa su log di server anonimi raccolti in tre finestre temporali di sei giorni, classificando i bot in base ai criteri del progetto AI.txt.

#### I Bot di Addestramento Stanno Vengono Bloccati

Uno dei risultati più sorprendenti riguarda GPTBot di OpenAI, il quale raccoglie dati per l’addestramento dei modelli. La sua copertura web è diminuita drasticamente, passando dall’84% al 12% nel corso dello studio. Il bot ExternalAgent di Meta si è dimostrato il crawler di addestramento più attivo per volume di richieste, ma l’analisi di Hostinger evidenzia che il gruppo di bot per l’addestramento ha mostrato le flessioni più forti, in parte a causa del crescente numero di siti che bloccano questi crawler.

Questi dati sono in linea con altre ricerche precedenti: lo studio di BuzzStream ha rilevato che il 79% dei maggiori editori di notizie blocca almeno un bot di addestramento. Anche il rapporto di Cloudflare ha evidenziato come i bot GPTBot, ClaudeBot e CCBot abbiano ricevuto il maggior numero di direttive di blocco tra i principali domini.

#### I Bot di Assistenza Raccontano una Storia Differente

Mentre i bot di addestramento affrontano difficoltà, i bot che alimentano strumenti di ricerca AI stanno ampliando il loro accesso. OAI-SearchBot di OpenAI, il quale raccoglie contenuti per la funzione di ricerca di ChatGPT, ha raggiunto una copertura media del 55,67%. Il bot di TikTok ha registrato una copertura del 25,67%, mentre quello di Apple ha raggiunto il 24,33%.

Questi bot di assistenza sono attivati dagli utenti e più mirati, servendo direttamente gli utenti piuttosto che raccogliere dati per l’addestramento, il che spiega probabilmente il trattamento differente da parte dei siti.

#### La Ricerca Tradizionale Rimane Stabile

I crawler dei motori di ricerca tradizionali hanno mantenuto una stabilità durante lo studio. Googlebot ha mantenuto una copertura media del 72% con 14,7 miliardi di richieste, mentre Bingbot si è attestato al 57,67%. Questa stabilità contrasta con le fluttuazioni nella categoria AI, dato che il crawler principale di Google si trova in una posizione unica: il suo blocco impatta la visibilità nei risultati di ricerca.

#### Gli Strumenti SEO Mostrano un Declino

I crawler per SEO e marketing hanno visto una diminuzione della copertura. Anche se Ahrefs ha mantenuto la più grande impronta con il 60% di copertura, l’intera categoria ha mostrato una contrazione. Hostinger attribuisce questo fenomeno a due fattori: un focus crescente su siti che stanno attivamente realizzando attività SEO e il blocco da parte dei proprietari di siti di crawler che consumano molte risorse.

#### Importanza di Questi Dati

I dati confermano un trend in crescita: i gestori di siti stanno delineando una linea di demarcazione tra i crawler AI che sono consentiti e quelli che non lo sono. La decisione si basa sulla funzione: i bot di addestramento raccolgono contenuti per migliorare i modelli senza generare traffico, mentre i bot di assistenza recuperano contenuti per rispondere a domande specifiche degli utenti, il che può aumentare la visibilità dei contenuti nei risultati di ricerca AI.

Hostinger suggerisce di bloccare i bot di addestramento consentendo al contempo i bot di assistenza, per partecipare alla ricerca AI senza contribuire all’addestramento dei modelli.

#### Uno Sguardo al Futuro

OpenAI raccomanda di consentire OAI-SearchBot se si desidera che il proprio sito appaia nei risultati di ricerca di ChatGPT, anche bloccando GPTBot. La documentazione di OpenAI chiarisce le differenze tra i bot. OAI-SearchBot controlla l’inclusione nei risultati di ricerca di ChatGPT e rispetta il file robots.txt, mentre ChatGPT-User gestisce la navigazione avviata dall’utente e può non essere soggetto alla stessa regolamentazione.

Hostinger consiglia di controllare i log del server per verificare quali bot stanno realmente accedendo al sito e prendere decisioni di blocco in base agli obiettivi. Se si è preoccupati per il carico del server, è possibile utilizzare blocchi a livello CDN. Se si desidera aumentare la visibilità su AI, è importante rivedere gli attuali user agent dei crawler AI e consentire solo i bot specifici che supportano la propria strategia.