HomeIAUn nuovo metodo per modificare o creare immagini

Un nuovo metodo per modificare o creare immagini

Generazione di immagini AI: un’industria in crescita

La generazione di immagini AI — che si basa su reti neurali per creare nuove immagini a partire da una varietà di input, inclusi suggerimenti testuali — è destinata a diventare un’industria da miliardi di dollari entro la fine di questo decennio. Con la tecnologia odierna, se desideri creare un’immagine fantasiosa, come un amico che pianta una bandiera su Marte o vola incautamente in un buco nero, potrebbe richiedere meno di un secondo. Tuttavia, prima di poter eseguire tali compiti, i generatori di immagini vengono comunemente addestrati su enormi dataset contenenti milioni di immagini spesso abbinate a testi associati. L’addestramento di questi modelli generativi può essere un compito arduo che richiede settimane o mesi, consumando enormi risorse computazionali nel processo.

Nuove frontiere nella generazione di immagini

Ma cosa succederebbe se fosse possibile generare immagini attraverso metodi AI senza utilizzare un generatore? Questa possibilità reale, insieme ad altre idee intriganti, è stata descritta in un documento di ricerca presentato alla International Conference on Machine Learning (ICML 2025), tenutasi a Vancouver, British Columbia, all’inizio di quest’estate. Il documento, che descrive tecniche innovative per manipolare e generare immagini, è stato scritto da Lukas Lao Beyer, un ricercatore laureato nel Laboratorio per i Sistemi di Informazione e Decisione (LIDS) del MIT; Tianhong Li, un postdoc presso il Laboratorio di Informatica e Intelligenza Artificiale (CSAIL) del MIT; Xinlei Chen di Facebook AI Research; Sertac Karaman, un professore del MIT di aeronautica e astronautica e direttore del LIDS; e Kaiming He, un professore associato del MIT di ingegneria elettrica e informatica.

Origini e sviluppo della ricerca

Questo sforzo di gruppo ha avuto origine in un progetto di classe per un seminario di laurea sui modelli generativi profondi che Lao Beyer ha seguito lo scorso autunno. Durante le conversazioni nel semestre, è diventato evidente sia a Lao Beyer che a He, che ha insegnato il seminario, che questa ricerca aveva un potenziale reale, che andava ben oltre i confini di un tipico compito a casa. Altri collaboratori sono stati presto coinvolti nell’impresa.

Innovazioni nei tokenizzatori

Il punto di partenza per l’indagine di Lao Beyer è stato un documento di giugno 2024, scritto da ricercatori dell’Università Tecnica di Monaco e della società cinese ByteDance, che ha introdotto un nuovo modo di rappresentare le informazioni visive chiamato tokenizzatore unidimensionale. Con questo dispositivo, che è anche un tipo di rete neurale, un’immagine di 256×256 pixel può essere tradotta in una sequenza di soli 32 numeri, chiamati token. “Volevo capire come si potesse ottenere un livello così alto di compressione e cosa rappresentassero effettivamente i token”, afferma Lao Beyer.

Efficienza e compressione

La generazione precedente di tokenizzatori avrebbe tipicamente suddiviso la stessa immagine in una matrice di 16×16 token — con ciascun token che incapsula informazioni, in forma altamente condensata, che corrispondono a una specifica porzione dell’immagine originale. I nuovi tokenizzatori 1D possono codificare un’immagine in modo più efficiente, utilizzando un numero di token complessivamente inferiore, e questi token sono in grado di catturare informazioni sull’intera immagine, non solo su un singolo quadrante.

Fonte: MIT

Per saperne di più

foto credit: Image courtesy of the authors.

Salvatore Macrì
Salvatore Macrìhttps://it.linkedin.com/in/salmacri
Amante della tecnologia e della buona musica, scrivo articoli per passione e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso.
TI POTREBBERO INTERESSARE

ARTICOLI CONSIGLIATI

Quasi 15 milioni di italiani usano app di IA:...

A dicembre 2025 quasi 15 milioni di italiani hanno usato almeno un’app di intelligenza artificiale: parliamo del 35% della popolazione online (18–74 anni) e di una media annua di 12,7 milioni, più del doppio rispetto al 2024.Il dettaglio che fa rumore, però, è un altro: ChatGPT supera i 10 milioni di utenti unici e viene usato da quasi un italiano su quattro. Non è più il giocattolo da provare una volta e poi dimenticare. È entrato nel quotidiano, nel bene e nel male.
Logo Chat GPT

OpenAI prepara una “super app” per PC: ChatGPT, Codex...

Negli ultimi mesi mi è capitato spesso di usare ChatGPT in una finestra, un tool di coding in un’altra, e poi… il browser, perché alla fine tutto passa da lì. È un flusso un po’ spezzato, “a pezzi”, e se lavori davvero con l’AI te ne accorgi subito. Ecco perché la voce che gira oggi ha senso: OpenAI starebbe lavorando a una super app desktop capace di unire le sue esperienze principali e, soprattutto, spingere forte sugli agenti (quelli che non si limitano a rispondere: agiscono).

Meta vuole meno moderatori umani e più IA: cosa...

Se negli ultimi anni ti è capitato di segnalare un profilo fake, una truffa “troppo bella per essere vera” o un post chiaramente fuori linea, hai già visto come funziona la moderazione su Meta: una miscela di algoritmi, sistemi automatici e (soprattutto) tantissime persone pagate per guardare il peggio del web. Ora Meta sta spostando l’ago della bilancia: meno controllo umano esterno, più sistemi di intelligenza artificiale basati su modelli linguistici.La notizia è del 20 marzo 2026 e arriva insieme a un altro pezzo del puzzle: Meta AI support assistant, una specie di “help desk” dentro Facebook e Instagram che promette risposte rapide e azioni dirette sull’account.
Earth-2 NVIDIA

NVIDIA Earth-2: i nuovi modelli AI meteo promettono previsioni...

Negli Stati Uniti, in queste ore, una grossa tempesta invernale sta mettendo in crisi la solita routine: apri l’app meteo, guardi la previsione, poi apri un’altra app… e trovi numeri diversi, spesso lontani tra loro. È il tipo di scenario che ti ricorda quanto la meteorologia, anche nel 2026, resti una scienza difficile da “impacchettare” in una notifica.In mezzo a questo caos, NVIDIA ha scelto un timing quasi perfetto per presentare la sua nuova famiglia di modelli AI per il meteo, parte del progetto Earth-2. E qui la notizia non è solo “una big tech fa un modello”. È un salto di ambizione: NVIDIA parla di strumenti aperti, più veloci, e con performance che — almeno sulla carta — mettono pressione anche ai nomi grossi già in campo.