Un nuovo framework unificato per l’IA multimodale semplifica la scelta degli algoritmi, migliora l’analisi di dati complessi e riduce costi computazionali, aprendo la strada a modelli più efficienti e affidabili
Un modello tipo “tavola periodica” che ridisegna l’evoluzione dell’IA.
L’intelligenza artificiale viene utilizzata sempre più spesso per integrare e analizzare molteplici tipi di formati di dati, come testo, immagini, audio e video. Una delle sfide che rallenta i progressi nell’IA multimodale, tuttavia, è il processo di scelta del metodo algoritmico più allineato al compito specifico che un sistema di IA deve svolgere.
Gli scienziati hanno sviluppato una visione unificata dei metodi di IA volta a sistematizzare questo processo. Il Journal of Machine Learning Research (1) ha pubblicato il nuovo framework per derivare algoritmi, sviluppato da fisici della Emory University.
«Abbiamo scoperto che molti dei metodi di IA di maggior successo oggi si riducono a un’unica idea semplice: comprimere diversi tipi di dati solo quanto basta per conservare le parti che realmente predicono ciò di cui hai bisogno», afferma Ilya Nemenman (2), professore di fisica alla Emory e autore senior dell’articolo. «Questo ci dà una sorta di “tavola periodica” dei metodi di IA. Metodi diversi ricadono in celle diverse, in base a quali informazioni la funzione di perdita di un metodo conserva o scarta».
La funzione di perdita di un sistema di IA è un’equazione matematica che misura il tasso di errore delle previsioni del modello. Durante l’addestramento di un modello di IA, l’obiettivo è minimizzare la sua perdita regolando i parametri del modello, utilizzando il tasso di errore come guida al miglioramento.
«Le persone hanno ideato centinaia di funzioni di perdita diverse per i sistemi di IA multimodale e alcune possono essere migliori di altre, a seconda del contesto», afferma Nemenman. «Ci siamo chiesti se esistesse un modo più semplice rispetto a ripartire da zero ogni volta che ci si trova di fronte a un problema di IA multimodale».
Un quadro unificatore
I ricercatori hanno sviluppato un quadro matematico unificatore per derivare funzioni di perdita specifiche per un problema, basato su quali informazioni mantenere e quali informazioni scartare. Lo hanno chiamato Variational Multivariate Information Bottleneck Framework.
«Il nostro framework è essenzialmente come una manopola di controllo», afferma il co‑autore Michael Martini, che ha lavorato al progetto come postdoctoral fellow della Emory e ricercatore nel gruppo di Nemenman. «Puoi “girare la manopola” per determinare le informazioni da conservare per risolvere un particolare problema».
Il dottor Eslam Abdelaleem (3), primo autore dell’articolo, racconta: «Il nostro approccio è uno generalizzato e fondato su principi. Il nostro obiettivo è aiutare le persone a progettare modelli di IA che siano adattati al problema che stanno cercando di risolvere consentendo allo stesso tempo di comprendere come e perché ogni parte del modello sta funzionando». Va ricordato che il dottor ha intrapreso il progetto come dottorando in fisica alla Emory attraverso la James T. Laney School of Graduate Studies. Si è laureato a maggio 2025 ed è entrato a Georgia Tech come postdoctoral fellow.
Gli sviluppatori di sistemi di IA possono utilizzare il framework per proporre nuovi algoritmi, prevedere quali potrebbero funzionare, stimare i dati necessari per un particolare algoritmo multimodale e anticipare quando potrebbe fallire.
«Altrettanto importante», afferma Nemenman, «potrebbe permetterci di progettare nuovi metodi di IA più accurati, efficienti e affidabili».
Un approccio fisico
I ricercatori hanno portato una prospettiva unica al problema dell’ottimizzazione del processo di progettazione per i sistemi di IA multimodale.
«La comunità del machine learning è focalizzata sul raggiungimento dell’accuratezza in un sistema senza necessariamente comprendere perché un sistema stia funzionando», spiega Abdelaleem. «Noi fisici, invece, vogliamo capire come e perché qualcosa funziona. Per questo ci siamo concentrati nel trovare principi fondamentali e unificanti per collegare tra loro diversi metodi di IA».
Abdelaleem e Martini hanno iniziato questa ricerca - distillare la complessità dei vari metodi di IA alla loro essenza - facendo matematica a mano.
«Abbiamo passato molto tempo seduti nel mio ufficio, scrivendo su una lavagna», racconta Martini. «A volte scrivevo su un foglio di carta con Eslam che guardava da sopra la mia spalla».
Il processo ha richiesto anni, lavorando prima sulle basi matematiche, discutendole con Nemenman, provando equazioni al computer, quindi ripetendo questi passaggi dopo essersi imbattuti in false piste.
«È stato un lungo lavoro di tentativi ed errori e di ritorni continui alla lavagna», afferma Martini.
Fare scienza con il cuore
Ricordano vividamente il giorno del loro momento “eureka”.
Avevano trovato un principio unificatore che descriveva un compromesso tra la compressione dei dati e la ricostruzione dei dati. «Abbiamo provato il nostro modello su due dataset di test e abbiamo mostrato che stava scoprendo automaticamente caratteristiche condivise e importanti tra di essi», dice Martini. «È stata una bella sensazione».
Mentre Abdelaleem stava lasciando il campus dopo l’ultima fase, estenuante ma esaltante, che aveva portato alla svolta, gli capitò di guardare il suo smartwatch Samsung Galaxy. Utilizza un sistema di IA per monitorare e interpretare dati sanitari, come il suo battito cardiaco. L’IA, tuttavia, aveva frainteso il significato del suo cuore accelerato per tutta la giornata.
«Il mio orologio diceva che avevo pedalato per tre ore», racconta Abdelaleem. «È così che ha interpretato il livello di eccitazione che stavo provando. Ho pensato: “Wow, è davvero incredibile! A quanto pare, la scienza può avere questo effetto”».
Applicare il framework
I ricercatori hanno applicato il loro framework a dozzine di metodi di IA per testarne l’efficacia.
«Abbiamo eseguito dimostrazioni al computer che mostrano che il nostro framework generale funziona bene con problemi di test su dataset di riferimento», afferma Nemenman. «Possiamo derivare più facilmente funzioni di perdita, che possono risolvere i problemi di interesse con quantità minori di dati di addestramento».
Il framework ha anche il potenziale di ridurre la quantità di potenza computazionale necessaria per far funzionare un sistema di IA.
«Aiutando a guidare il miglior approccio di IA, il framework aiuta a evitare la codifica di caratteristiche che non sono importanti», afferma Nemenman. «Minore è la quantità di dati richiesta per un sistema, minore è la potenza computazionale necessaria per farlo funzionare, rendendolo meno dannoso per l’ambiente. Ciò potrebbe anche aprire la strada a esperimenti d’avanguardia per problemi che non possiamo risolvere ora perché non esistono abbastanza dati disponibili».
I ricercatori sperano che altri utilizzino il framework generalizzato per adattare nuovi algoritmi specifici alle domande scientifiche che desiderano esplorare.
Nel frattempo, stanno ampliando il loro lavoro per esplorare il potenziale del nuovo framework. Sono particolarmente interessati a come lo strumento possa aiutare a rilevare schemi biologici, portando a intuizioni su processi come la funzione cognitiva.
«Voglio capire come il tuo cervello comprime e processa simultaneamente più fonti di informazione», afferma Abdelaleem. «Possiamo sviluppare un metodo che ci permetta di vedere le somiglianze tra un modello di machine learning e il cervello umano? Questo potrebbe aiutarci a comprendere meglio entrambi i sistemi».
Riferimenti:
(1) Deep Variational Multivariate Information Bottleneck - A Framework for Variational Losses
(2) Ilya Nemenman
(3) Eslam Abdelaleem
Descrizione foto: Eslam Abdelaleem ha guidato il lavoro come studente laureato a Emory. Il giorno della svolta finale, il rilevatore di salute AI sul suo orologio ha registrato il suo battito cardiaco come tre ore di ciclismo. «È così che ha interpretato il livello di eccitazione che provavo», dice Abdelaleem. - Credit: Barbara Conner.
Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: ‘Periodic table’ for AI methods aims to drive innovation