Innovazione nell’immagine: un nuovo approccio ibrido
La capacità di generare immagini di alta qualità in tempi rapidi è fondamentale per creare ambienti simulati realistici, utilizzati per addestrare le auto a guida autonoma a evitare pericoli imprevedibili, rendendole più sicure sulle strade reali. Tuttavia, le tecniche di intelligenza artificiale generativa utilizzate per produrre tali immagini presentano alcune limitazioni. I modelli di diffusione, noti per creare immagini incredibilmente realistiche, risultano spesso troppo lenti e richiedono risorse computazionali elevate. Al contrario, i modelli autoregressivi, che alimentano strumenti come ChatGPT, sono molto più veloci ma tendono a produrre immagini di qualità inferiore, spesso piene di errori.
La soluzione HART: unire il meglio di due mondi
Ricercatori del MIT e NVIDIA hanno sviluppato un nuovo approccio che combina i vantaggi di entrambi i metodi. Il loro strumento di generazione di immagini ibrido utilizza un modello autoregressivo per catturare rapidamente il quadro generale e un piccolo modello di diffusione per affinare i dettagli dell’immagine. Questo strumento, noto come HART (acronimo di hybrid autoregressive transformer), è in grado di generare immagini che eguagliano o superano la qualità dei modelli di diffusione all’avanguardia, ma lo fa circa nove volte più velocemente.
Efficienza e applicazioni di HART
Il processo di generazione di HART consuma meno risorse computazionali rispetto ai modelli di diffusione tradizionali, permettendo a HART di funzionare localmente su un laptop commerciale o uno smartphone. L’utente deve semplicemente inserire un prompt in linguaggio naturale nell’interfaccia di HART per generare un’immagine. HART potrebbe avere una vasta gamma di applicazioni, come aiutare i ricercatori ad addestrare robot per completare compiti complessi nel mondo reale e supportare i designer nella creazione di scene sorprendenti per i videogiochi.
Il processo creativo dietro HART
“Se stai dipingendo un paesaggio e dipingi l’intera tela una sola volta, potrebbe non sembrare molto buono. Ma se dipingi il quadro generale e poi affini l’immagine con pennellate più piccole, il tuo dipinto potrebbe apparire molto meglio. Questa è l’idea di base con HART,” afferma Haotian Tang SM ’22, PhD ’25, co-autore principale di un nuovo articolo su HART. È affiancato dal co-autore principale Yecheng Wu, uno studente universitario presso l’Università di Tsinghua; dall’autore senior Song Han, professore associato nel Dipartimento di Ingegneria Elettrica e Informatica del MIT (EECS), membro del MIT-IBM Watson AI Lab e scienziato di spicco di NVIDIA; oltre ad altri collaboratori del MIT, dell’Università di Tsinghua e di NVIDIA. La ricerca sarà presentata alla International Conference on Learning Representations.
Modelli di diffusione e il loro funzionamento
I modelli di diffusione popolari, come Stable Diffusion e DALL-E, sono noti per produrre immagini altamente dettagliate. Questi modelli generano immagini attraverso un processo iterativo in cui prevedono una certa quantità di rumore casuale su ciascun pixel, sottraggono il rumore, quindi ripetono il processo di previsione e “de-rumorizzazione” più volte fino a generare una nuova immagine completamente priva di rumore. Poiché il modello di diffusione de-rumorizza tutti i pixel in un’immagine a ogni passo, e ci possono essere 30 o più passi, il processo è lento e computazionalmente costoso.
Fonte: MIT
foto credit: Credit: Christine Daniloff, MIT; image of astronaut on horseback courtesy of the researchers
Ricevi le ultime attualità sul mondo tech!