Come ascoltiamo nel rumore totale

By Edoardo Capuano on Apr 08, 2026

Il MIT svela come il cervello isola una singola voce nel caos sonoro, risolvendo il problema del cocktail party grazie a un innovativo modello computazionale dell’attenzione uditiva

Ascoltare nel rumore: il superpotere cerebrale che usiamo ogni giorno senza saperlo.

I neuroscienziati del MIT (Massachusetts Institute of Technology) hanno scoperto come il cervello riesca a concentrarsi su una singola voce in mezzo a una cacofonia di voci, facendo luce su un fenomeno neuroscientifico di lunga data noto come il problema del cocktail party.

Questa focalizzazione dell’attenzione diventa necessaria quando ci si trova in un ambiente affollato, come una festa, con molte conversazioni che avvengono contemporaneamente. In qualche modo, il cervello riesce a seguire la voce della persona con la quale si parla, nonostante tutte le altre voci che si odono in sottofondo.

Utilizzando un modello computazionale del sistema uditivo, il team del MIT ha scoperto che amplificare l’attività delle unità di elaborazione neurale che rispondono alle caratteristiche di una voce bersaglio, come la sua altezza tonale, permette a quella voce di emergere in primo piano nell’attenzione.

«Quel semplice principio è sufficiente a far emergere gran parte del fenotipo dell’attenzione uditiva umana, e il modello finisce per riprodurre una gamma molto ampia di comportamenti attentivi umani relativi al suono», afferma il dottor Josh McDermott (1), docente di scienze del cervello e cognitive al MIT, membro del McGovern Institute for Brain Research e del Center for Brains, Minds, and Machines del MIT, e autore senior dello studio.

I risultati sono coerenti con studi precedenti che mostrano che, quando persone o animali si concentrano su un input uditivo specifico, i neuroni della corteccia uditiva che rispondono alle caratteristiche dello stimolo bersaglio amplificano la loro attività. Questo è il primo studio a dimostrare che tale incremento aggiuntivo è sufficiente a spiegare come il cervello risolva il problema del cocktail party.

Ian Griffith, dottorando dell’Harvard Program in Speech and Hearing Biosciences and Technology, supervisionato da McDermott, è il primo autore dell’articolo. R. Preston Hess, dottorando al MIT, è anch’egli autore dell’articolo, pubblicato su Nature Human Behavior (2).

Modellare l’attenzione

I neuroscienziati studiano il fenomeno dell’attenzione selettiva da decenni. Molti studi su persone e animali hanno mostrato che, quando ci si concentra su uno stimolo particolare come il suono della voce di qualcuno, i neuroni sintonizzati sulle caratteristiche di quella voce - per esempio un tono acuto - amplificano la loro attività.

Quando si verifica questa amplificazione, le frequenze di scarica dei neuroni vengono aumentate, come se fossero moltiplicate per un numero maggiore di uno. È stato proposto che questi “guadagni moltiplicativi” permettano al cervello di focalizzare l’attenzione su determinati stimoli. I neuroni che non sono sintonizzati sulla caratteristica bersaglio mostrano una corrispondente riduzione dell’attività.

«Le risposte dei neuroni sintonizzati sulle caratteristiche che rientrano nel bersaglio dell’attenzione vengono amplificate», afferma Griffith. «Questi effetti sono noti da molto tempo, ma ciò che non era chiaro è se tale effetto sia sufficiente a spiegare ciò che accade quando cerchi di prestare attenzione a una voce o di concentrarti selettivamente su un oggetto».

Questa domanda è rimasta senza risposta perché i modelli computazionali della percezione non sono stati in grado di svolgere compiti attentivi come isolare una voce tra molte. Tali modelli possono eseguire facilmente compiti uditivi quando c’è un suono bersaglio inequivocabile da identificare, ma non sono stati in grado di svolgere gli stessi compiti quando altri stimoli competono per la loro attenzione.

«Nessuno dei nostri modelli ha avuto la capacità che hanno gli esseri umani di essere indirizzati verso un particolare oggetto o un particolare suono e poi basare la loro risposta su quell’oggetto o quel suono. Ha rappresentato una limitazione significativa», afferma McDermott.

In questo studio, il team del MIT voleva verificare la possibilità di addestrare modelli a svolgere questo tipo di compiti consentendo loro di produrre incrementi di attività neuronale simili a quelli osservati nel cervello umano.

Per addestrare il modello, in ogni prova i ricercatori gli fornivano innanzitutto un “segnale”: una clip audio della voce su cui volevano che il modello concentrasse l’attenzione. Le attivazioni delle unità generate dal segnale determinavano poi i guadagni moltiplicativi applicati quando il modello ascoltava uno stimolo successivo.

«Immagina che il segnale sia un estratto di una voce con un tono basso. Allora le unità del modello che rappresentano il tono basso verrebbero moltiplicate per un guadagno elevato, mentre le unità che rappresentano il tono alto verrebbero attenuate», spiega Griffith.

Successivamente, al modello venivano fornite clip contenenti un mix di voci, inclusa la voce bersaglio, e gli veniva chiesto di identificare la seconda parola pronunciata dalla voce bersaglio. Le attivazioni del modello per questa miscela venivano moltiplicate per i guadagni derivati dal precedente segnale. Ci si aspettava che questo causasse un’ “amplificazione” della voce bersaglio all’interno del modello, ma non era chiaro se tale effetto sarebbe stato sufficiente a produrre un comportamento attentivo simile a quello umano.

I ricercatori hanno scoperto che, in una varietà di condizioni, il modello si comportava in modo molto simile agli esseri umani e tendeva a commettere errori simili ai loro. Per esempio, come gli esseri umani, talvolta sbagliava quando cercava di concentrarsi su una delle due voci maschili o una delle due voci femminili, che hanno maggiori probabilità di avere toni simili.

«Abbiamo condotto esperimenti per misurare quanto bene le persone riescano a selezionare le voci in un’ampia gamma di condizioni, e il modello riproduce piuttosto bene questo schema di comportamento», afferma Griffith.

Effetti della posizione

Ricerche precedenti hanno mostrato che, oltre al tono, la posizione spaziale è un fattore chiave che aiuta le persone a concentrarsi su una voce o un suono particolare. Il team del MIT ha scoperto che il modello ha imparato anch’esso a utilizzare la posizione spaziale per la selezione attentiva, ottenendo prestazioni migliori quando la voce bersaglio si trovava in una posizione diversa rispetto alle voci distraenti.

I ricercatori hanno poi utilizzato il modello per scoprire nuove proprietà dell’attenzione spaziale umana. Grazie al loro modello computazionale, hanno potuto testare tutte le possibili combinazioni di posizioni della voce bersaglio e delle voci distraenti, un compito che richiederebbe un’enorme quantità di tempo con soggetti umani.

«Puoi usare il modello come un modo per esaminare un gran numero di condizioni alla ricerca di schemi interessanti e, una volta trovato qualcosa di interessante, puoi poi condurre l’esperimento sugli esseri umani», afferma McDermott.

Questi esperimenti hanno rivelato che il modello era molto più bravo a selezionare correttamente la voce bersaglio quando bersaglio e distrattore si trovavano in posizioni diverse sul piano orizzontale. Quando invece i suoni erano separati sul piano verticale, il compito diventava molto più difficile. Quando i ricercatori hanno condotto un esperimento simile con soggetti umani, hanno osservato lo stesso risultato.

«Questo è solo un esempio di come siamo riusciti a usare il modello come motore di scoperta, che credo sia un’applicazione entusiasmante per questo tipo di modello», afferma McDermott.

Un’altra applicazione che i ricercatori stanno esplorando consiste nell’utilizzare questo tipo di modello per simulare l’ascolto attraverso un impianto cocleare. Si spera che questi studi possano portare a miglioramenti negli impianti cocleari, aiutando le persone che li utilizzano a concentrarsi meglio in ambienti rumorosi.

Riferimenti:

(1) Josh McDermott

(2) Optimized feature gains explain and predict successes and failures of human selective listening

Descrizione foto: Josh McDermott (a sinistra), professore di scienze del cervello e cognitive e ricercatore associato presso il McGovern Institute, siede con lo studente laureato Ian Griffith nella sala degli altoparlanti dove hanno condotto lo studio. - Credit: MIT Department of Brain and Cognitive Sciences.

Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: How the brain handles the “cocktail party problem”

Neurologia

featured