Le principali testate giornalistiche bloccano i bot per l’addestramento e il recupero dell’intelligenza artificiale
# I principali editori di notizie bloccano i bot per l’addestramento dell’IA Negli ultimi tempi, molte delle principali testate giornalistiche hanno deciso di bloccare i bot di addestramento dell’intelligenza artificiale (IA) attraverso il protocollo robots.txt. Questa scelta non solo limita l’accesso per l’addestramento, ma ostacola anche i bot di recupero che determinano l’apparizione dei siti […]
# I principali editori di notizie bloccano i bot per l’addestramento dell’IA
Negli ultimi tempi, molte delle principali testate giornalistiche hanno deciso di bloccare i bot di addestramento dell’intelligenza artificiale (IA) attraverso il protocollo robots.txt. Questa scelta non solo limita l’accesso per l’addestramento, ma ostacola anche i bot di recupero che determinano l’apparizione dei siti nelle risposte generate dall’IA.
### Cosa Dice Lo Studio
Un’analisi condotta da **BuzzStream**, che ha esaminato i file robots.txt di 100 siti di notizie di punta negli Stati Uniti e nel Regno Unito, ha rivelato che il **79%** di essi blocca almeno un bot di addestramento e, cosa ancora più sorprendente, il **71%** blocca almeno un bot di recupero o di ricerca in tempo reale.
I bot di addestramento sono programmi che raccolgono contenuti per costruire modelli di IA, mentre i bot di recupero raccolgono contenuti in tempo reale quando gli utenti pongono domande. I siti che bloccano i bot di recupero potrebbero non apparire quando gli strumenti di IA tentano di citare fonti, anche se il modello sottostante è stato addestrato con i loro contenuti.
### Categorie di Bot Bloccati
BuzzStream ha classificato i bot in tre categorie: addestramento, recupero/ricerca in diretta e indicizzazione. Nel contesto dei bot di addestramento, il **CCBot** di Common Crawl è il più frequentemente bloccato, con un tasso di **75%**, seguito da **Anthropic-ai** (72%) e **ClaudeBot** (69%).
### Implicazioni del Blocchi
Harry Clarkson-Bennett, SEO Director di **The Telegraph**, ha commentato: “Gli editori stanno bloccando i bot dell’IA con il robots.txt perché non c’è quasi nessun scambio di valore. Le LLM non sono progettate per inviare traffico di riferimento e gli editori hanno bisogno di traffico per sopravvivere.”
### Il Problema dell’Applicazione
Va notato che il robots.txt è solo una direttiva e non un ostacolo insormontabile. Questo significa che i bot possono ignorarlo. Clarkson-Bennett ha sottolineato che il file robots.txt agisce come un cartello di divieto e non come una porta chiusa.
### Perché È Importante
I dati sugli ostacoli ai bot di recupero sono di particolare rilevanza. Molti editori non solo si stanno ritirando dall’addestramento dell’IA, ma stanno anche rifiutando di essere parte del layer di citazione e scoperta utilizzato dagli strumenti di ricerca IA per evidenziare le fonti.
### Guardando Avanti
I siti che vogliono bloccare i crawler IA potrebbero trovare le restrizioni a livello CDN più efficaci rispetto alle sole direttive robots.txt. La questione è chiara: l’opzione di bloccare un bot di addestramento non impedisce l’accesso di un bot di recupero, e i blocchi imposti possono influenzare notevolmente la visibilità dei contenuti negli assistenti IA.
L’attenzione si concentra sulla categoria dei bot di recupero, poiché questi blocchi hanno un impatto immediato su come e se i contenuti appaiono nelle risposte generate dall’IA agli utenti.
### Conclusione
In un contesto in cui l’intelligenza artificiale sta assumendo un ruolo sempre più rilevante nel panorama mediatico, le decisioni degli editori di bloccare o meno i bot IA potrebbero avere conseguenze significative per la distribuzione e la visibilità dei loro contenuti.
admin