Google Annuncia una Nuova Era per la Ricerca Vocale

### Annuncio di Google: Una Nuova Era per la Ricerca Vocale Google ha recentemente rivelato un aggiornamento rivoluzionario per la sua funzione di ricerca vocale, che trasforma radicalmente il modo in cui vengono elaborate e classificate le query vocali. Il nuovo modello di intelligenza artificiale, chiamato Speech-to-Retrieval (S2R), consente di elaborare direttamente l’audio della voce, […]

Oct 21, 2025 - 17:30

0 22

### Annuncio di Google: Una Nuova Era per la Ricerca Vocale

Google ha recentemente rivelato un aggiornamento rivoluzionario per la sua funzione di ricerca vocale, che trasforma radicalmente il modo in cui vengono elaborate e classificate le query vocali. Il nuovo modello di intelligenza artificiale, chiamato **Speech-to-Retrieval (S2R)**, consente di elaborare direttamente l’audio della voce, eliminando il passaggio di conversione dell’audio in testo.

#### Il Problema del Sistema Precedente

Il vecchio sistema, noto come **Cascade ASR**, convertiva le query vocali in testo prima di procedere alla normale fase di classificazione. Tuttavia, questo processo era soggetto a errori poiché la conversione audio-testo poteva perdere indizi contestuali importanti, portando a risposte imprecise.

#### Introduzione del Modello S2R

Il nuovo sistema S2R è basato su una rete neurale di apprendimento automatico, addestrata su ampi set di dati di query audio e documenti corrispondenti. Grazie a questo approccio, le query vocali possono essere elaborate senza convertirle in testo, migliorando la precisione e la rilevanza dei risultati.

#### Modello a Doppio Encoder

Il sistema S2R utilizza due reti neurali:

1. **Audio Encoder**: Questa rete converte le query vocali in una rappresentazione vettoriale che cattura il significato semantico della richiesta.
2. **Document Encoder**: Questa rete trasforma i documenti scritti in una rappresentazione vettoriale simile, consentendo una mappatura efficace tra query vocali e testi.

Le due reti imparano a posizionare insieme i vettori di query audio e documenti pertinenti in uno spazio semantico condiviso.

#### Rappresentazione Vettoriale Rich

Le rappresentazioni vettoriali “ricche” sono in grado di catturare non solo il significato, ma anche il contesto delle query vocali e dei testi. Ciò significa che il sistema non si basa solamente sulla corrispondenza di parole chiave; può comprendere concettualmente ciò che l’utente sta chiedendo. Ad esempio, anche se qualcuno dice “mostrami il dipinto del volto urlante di Munch”, il sistema troverà comunque informazioni su “The Scream”.

#### Processo di Classificazione

Il sistema S2R include anche un processo di ranking simile a quello delle ricerche testuali. Quando un utente pronuncia una query, l’audio viene elaborato dall’audio encoder e convertito in un vettore numerico. Questo vettore viene quindi confrontato con l’indice di Google per trovare pagine vettroricamente simili alla richiesta parlata.

Ad esempio, se un utente dice “il dipinto urlo”, il modello convertirà questa frase in un vettore rappresentante il suo significato e cercherà nel suo indice di documenti per trovare informazioni su “The Scream” di Edvard Munch.

#### Benchmarking e Disponibilità

Google ha testato il nuovo sistema confrontandolo con il precedente Cascade ASR e ha ottenuto risultati promettenti, quasi eguagliando i punteggi di un modello perfetto. Sebbene ci sia ancora margine di miglioramento, il sistema è già attivo e disponibile in diverse lingue.

#### Conclusioni

L’introduzione del motore **Speech-to-Retrieval** segna un passo significativo nel campo della ricerca vocale, fornendo risposte più rapide e affidabili. Google ha dichiarato che la ricerca vocale è ora alimentata da questo nuovo motore, rendendo l’esperienza utente significativamente migliorata.

Per ulteriori dettagli, puoi leggere l’articolo completo [qui](https://research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/).