domenica, 8 Febbraio 2026
HomeIAUn nuovo metodo per modificare o creare immagini

Un nuovo metodo per modificare o creare immagini

Generazione di immagini AI: un’industria in crescita

La generazione di immagini AI — che si basa su reti neurali per creare nuove immagini a partire da una varietà di input, inclusi suggerimenti testuali — è destinata a diventare un’industria da miliardi di dollari entro la fine di questo decennio. Con la tecnologia odierna, se desideri creare un’immagine fantasiosa, come un amico che pianta una bandiera su Marte o vola incautamente in un buco nero, potrebbe richiedere meno di un secondo. Tuttavia, prima di poter eseguire tali compiti, i generatori di immagini vengono comunemente addestrati su enormi dataset contenenti milioni di immagini spesso abbinate a testi associati. L’addestramento di questi modelli generativi può essere un compito arduo che richiede settimane o mesi, consumando enormi risorse computazionali nel processo.

Nuove frontiere nella generazione di immagini

Ma cosa succederebbe se fosse possibile generare immagini attraverso metodi AI senza utilizzare un generatore? Questa possibilità reale, insieme ad altre idee intriganti, è stata descritta in un documento di ricerca presentato alla International Conference on Machine Learning (ICML 2025), tenutasi a Vancouver, British Columbia, all’inizio di quest’estate. Il documento, che descrive tecniche innovative per manipolare e generare immagini, è stato scritto da Lukas Lao Beyer, un ricercatore laureato nel Laboratorio per i Sistemi di Informazione e Decisione (LIDS) del MIT; Tianhong Li, un postdoc presso il Laboratorio di Informatica e Intelligenza Artificiale (CSAIL) del MIT; Xinlei Chen di Facebook AI Research; Sertac Karaman, un professore del MIT di aeronautica e astronautica e direttore del LIDS; e Kaiming He, un professore associato del MIT di ingegneria elettrica e informatica.

Origini e sviluppo della ricerca

Questo sforzo di gruppo ha avuto origine in un progetto di classe per un seminario di laurea sui modelli generativi profondi che Lao Beyer ha seguito lo scorso autunno. Durante le conversazioni nel semestre, è diventato evidente sia a Lao Beyer che a He, che ha insegnato il seminario, che questa ricerca aveva un potenziale reale, che andava ben oltre i confini di un tipico compito a casa. Altri collaboratori sono stati presto coinvolti nell’impresa.

Innovazioni nei tokenizzatori

Il punto di partenza per l’indagine di Lao Beyer è stato un documento di giugno 2024, scritto da ricercatori dell’Università Tecnica di Monaco e della società cinese ByteDance, che ha introdotto un nuovo modo di rappresentare le informazioni visive chiamato tokenizzatore unidimensionale. Con questo dispositivo, che è anche un tipo di rete neurale, un’immagine di 256×256 pixel può essere tradotta in una sequenza di soli 32 numeri, chiamati token. “Volevo capire come si potesse ottenere un livello così alto di compressione e cosa rappresentassero effettivamente i token”, afferma Lao Beyer.

Efficienza e compressione

La generazione precedente di tokenizzatori avrebbe tipicamente suddiviso la stessa immagine in una matrice di 16×16 token — con ciascun token che incapsula informazioni, in forma altamente condensata, che corrispondono a una specifica porzione dell’immagine originale. I nuovi tokenizzatori 1D possono codificare un’immagine in modo più efficiente, utilizzando un numero di token complessivamente inferiore, e questi token sono in grado di catturare informazioni sull’intera immagine, non solo su un singolo quadrante.

Fonte: MIT

Per saperne di più

foto credit: Image courtesy of the authors.

Salvatore Macrì
Salvatore Macrìhttps://it.linkedin.com/in/salmacri
Amante della tecnologia, della buona musica e dello sport, scrivo articoli per passione e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso. Mi dedico per passione anche a scrivere pronostici sportivi dettagliati anche grazie all'analisi approfondita delle statistiche, grazie all'IA.
TI POTREBBERO INTERESSARE

ARTICOLI CONSIGLIATI

Earth-2 NVIDIA

NVIDIA Earth-2: i nuovi modelli AI meteo promettono previsioni...

Negli Stati Uniti, in queste ore, una grossa tempesta invernale sta mettendo in crisi la solita routine: apri l’app meteo, guardi la previsione, poi apri un’altra app… e trovi numeri diversi, spesso lontani tra loro. È il tipo di scenario che ti ricorda quanto la meteorologia, anche nel 2026, resti una scienza difficile da “impacchettare” in una notifica.In mezzo a questo caos, NVIDIA ha scelto un timing quasi perfetto per presentare la sua nuova famiglia di modelli AI per il meteo, parte del progetto Earth-2. E qui la notizia non è solo “una big tech fa un modello”. È un salto di ambizione: NVIDIA parla di strumenti aperti, più veloci, e con performance che — almeno sulla carta — mettono pressione anche ai nomi grossi già in campo.
Gemini 3 Pro

Gemini 3 Pro: l’intelligenza artificiale di Google entra in...

Con il rilascio di Gemini 3 Pro, Google ha fatto un passo deciso verso un’intelligenza artificiale più “umana” — capace non solo di rispondere,...
Claude AI Logo

Anthropic presenta Claude Sonnet 4.5: nuovo modello avanzato per...

Anthropic ha appena lanciato Claude Sonnet 4.5, evoluzione importante della serie Sonnet che mira a spingere oltre i limiti ciò che i modelli AI...
Logo Chat GPT

ChatGPT diventa negozio: arriva Instant Checkout

OpenAI ha introdotto Instant Checkout, una funzione che consente agli utenti di acquistare articoli direttamente all’interno di ChatGPT, senza uscire dall’interfaccia. Per ora, il...