Generazione di immagini AI: un’industria in crescita
La generazione di immagini AI — che si basa su reti neurali per creare nuove immagini a partire da una varietà di input, inclusi suggerimenti testuali — è destinata a diventare un’industria da miliardi di dollari entro la fine di questo decennio. Con la tecnologia odierna, se desideri creare un’immagine fantasiosa, come un amico che pianta una bandiera su Marte o vola incautamente in un buco nero, potrebbe richiedere meno di un secondo. Tuttavia, prima di poter eseguire tali compiti, i generatori di immagini vengono comunemente addestrati su enormi dataset contenenti milioni di immagini spesso abbinate a testi associati. L’addestramento di questi modelli generativi può essere un compito arduo che richiede settimane o mesi, consumando enormi risorse computazionali nel processo.
Nuove frontiere nella generazione di immagini
Ma cosa succederebbe se fosse possibile generare immagini attraverso metodi AI senza utilizzare un generatore? Questa possibilità reale, insieme ad altre idee intriganti, è stata descritta in un documento di ricerca presentato alla International Conference on Machine Learning (ICML 2025), tenutasi a Vancouver, British Columbia, all’inizio di quest’estate. Il documento, che descrive tecniche innovative per manipolare e generare immagini, è stato scritto da Lukas Lao Beyer, un ricercatore laureato nel Laboratorio per i Sistemi di Informazione e Decisione (LIDS) del MIT; Tianhong Li, un postdoc presso il Laboratorio di Informatica e Intelligenza Artificiale (CSAIL) del MIT; Xinlei Chen di Facebook AI Research; Sertac Karaman, un professore del MIT di aeronautica e astronautica e direttore del LIDS; e Kaiming He, un professore associato del MIT di ingegneria elettrica e informatica.
Origini e sviluppo della ricerca
Questo sforzo di gruppo ha avuto origine in un progetto di classe per un seminario di laurea sui modelli generativi profondi che Lao Beyer ha seguito lo scorso autunno. Durante le conversazioni nel semestre, è diventato evidente sia a Lao Beyer che a He, che ha insegnato il seminario, che questa ricerca aveva un potenziale reale, che andava ben oltre i confini di un tipico compito a casa. Altri collaboratori sono stati presto coinvolti nell’impresa.
Innovazioni nei tokenizzatori
Il punto di partenza per l’indagine di Lao Beyer è stato un documento di giugno 2024, scritto da ricercatori dell’Università Tecnica di Monaco e della società cinese ByteDance, che ha introdotto un nuovo modo di rappresentare le informazioni visive chiamato tokenizzatore unidimensionale. Con questo dispositivo, che è anche un tipo di rete neurale, un’immagine di 256×256 pixel può essere tradotta in una sequenza di soli 32 numeri, chiamati token. “Volevo capire come si potesse ottenere un livello così alto di compressione e cosa rappresentassero effettivamente i token”, afferma Lao Beyer.
Efficienza e compressione
La generazione precedente di tokenizzatori avrebbe tipicamente suddiviso la stessa immagine in una matrice di 16×16 token — con ciascun token che incapsula informazioni, in forma altamente condensata, che corrispondono a una specifica porzione dell’immagine originale. I nuovi tokenizzatori 1D possono codificare un’immagine in modo più efficiente, utilizzando un numero di token complessivamente inferiore, e questi token sono in grado di catturare informazioni sull’intera immagine, non solo su un singolo quadrante.
Fonte: MIT
foto credit: Image courtesy of the authors.





