Apple lancia un nuovo modello di intelligenza artificiale su Hugging Face con una caratteristica interessante. A differenza dei tradizionali modelli di linguaggio di grandi dimensioni (LLM) che generano testo in modo sequenziale (da sinistra a destra, dall’alto verso il basso), questo modello è in grado di scrivere in modo non sequenziale e migliorare più parti contemporaneamente. Il risultato è una generazione di codice più veloce, con prestazioni che rivaleggiano con i migliori modelli open-source per la programmazione.
Come funziona
Prima di addentrarci nei dettagli, è importante comprendere alcuni concetti (semplificati per efficienza). Tradizionalmente, la maggior parte degli LLM è stata autoregressiva. Ciò significa che, quando si pone una domanda, il modello elabora l’intera domanda, prevede il primo token della risposta, rielabora la domanda con il primo token, prevede il secondo token, e così via. Questo li porta a generare testo come la maggior parte di noi legge: da sinistra a destra, dall’alto verso il basso.
Gli LLM hanno un’impostazione chiamata temperatura che controlla quanto casuale può essere l’output. Quando si prevede il token successivo, il modello assegna probabilità a tutte le opzioni possibili. Una temperatura più bassa rende più probabile la scelta del token più probabile, mentre una temperatura più alta dà maggiore libertà di scegliere quelli meno probabili.
Modelli di diffusione
Un’alternativa ai modelli autoregressivi sono i modelli di diffusione, più spesso utilizzati nei modelli di immagini come Stable Diffusion. In sintesi, il modello parte da un’immagine sfocata e rumorosa e rimuove iterativamente il rumore tenendo conto della richiesta dell’utente, orientandosi verso qualcosa che assomiglia sempre più a ciò che l’utente ha richiesto.
Ultimamente, alcuni grandi modelli di linguaggio hanno guardato all’architettura di diffusione per generare testo, e i risultati sono stati piuttosto promettenti. Perché i modelli di testo basati sulla diffusione possono essere più veloci di quelli autoregressivi? Perché possono, in sostanza, affinare iterativamente l’intero testo in parallelo.
DiffuCode-7B-cpGRPO
Apple ha rilasciato un modello open-source chiamato DiffuCode-7B-cpGRPO, basato su un documento intitolato “DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation”, pubblicato solo il mese scorso. Il documento descrive un modello che adotta un approccio di diffusione per la generazione di codice, ma con una particolarità: “Quando la temperatura di campionamento viene aumentata dal valore predefinito di 0,2 a 1,2, DiffuCoder diventa più flessibile nell’ordine di generazione dei token, liberandosi dai vincoli stretti da sinistra a destra”.
Ciò significa che, regolando la temperatura, il modello può comportarsi in modo più (o meno) simile a un modello autoregressivo. In sostanza, temperature più alte gli danno maggiore flessibilità per generare token in ordine non sequenziale, mentre temperature più basse lo mantengono più vicino a una decodifica rigorosa da sinistra a destra.
Questo comportamento è particolarmente utile per la programmazione, dove la struttura globale è più importante della previsione lineare dei token.
Fonte: 9to5Mac
Ricevi le ultime attualità sul mondo tech!