giovedì, 17 Luglio 2025
spot_imgspot_imgspot_imgspot_img
HomeNews TechApple ha appena rilasciato un modello di linguaggio di programmazione stranamente interessante

Apple ha appena rilasciato un modello di linguaggio di programmazione stranamente interessante

Apple lancia un nuovo modello di intelligenza artificiale su Hugging Face con una caratteristica interessante. A differenza dei tradizionali modelli di linguaggio di grandi dimensioni (LLM) che generano testo in modo sequenziale (da sinistra a destra, dall’alto verso il basso), questo modello è in grado di scrivere in modo non sequenziale e migliorare più parti contemporaneamente. Il risultato è una generazione di codice più veloce, con prestazioni che rivaleggiano con i migliori modelli open-source per la programmazione.

Come funziona

Prima di addentrarci nei dettagli, è importante comprendere alcuni concetti (semplificati per efficienza). Tradizionalmente, la maggior parte degli LLM è stata autoregressiva. Ciò significa che, quando si pone una domanda, il modello elabora l’intera domanda, prevede il primo token della risposta, rielabora la domanda con il primo token, prevede il secondo token, e così via. Questo li porta a generare testo come la maggior parte di noi legge: da sinistra a destra, dall’alto verso il basso.

Gli LLM hanno un’impostazione chiamata temperatura che controlla quanto casuale può essere l’output. Quando si prevede il token successivo, il modello assegna probabilità a tutte le opzioni possibili. Una temperatura più bassa rende più probabile la scelta del token più probabile, mentre una temperatura più alta dà maggiore libertà di scegliere quelli meno probabili.

Modelli di diffusione

Un’alternativa ai modelli autoregressivi sono i modelli di diffusione, più spesso utilizzati nei modelli di immagini come Stable Diffusion. In sintesi, il modello parte da un’immagine sfocata e rumorosa e rimuove iterativamente il rumore tenendo conto della richiesta dell’utente, orientandosi verso qualcosa che assomiglia sempre più a ciò che l’utente ha richiesto.

Ultimamente, alcuni grandi modelli di linguaggio hanno guardato all’architettura di diffusione per generare testo, e i risultati sono stati piuttosto promettenti. Perché i modelli di testo basati sulla diffusione possono essere più veloci di quelli autoregressivi? Perché possono, in sostanza, affinare iterativamente l’intero testo in parallelo.

DiffuCode-7B-cpGRPO

Apple ha rilasciato un modello open-source chiamato DiffuCode-7B-cpGRPO, basato su un documento intitolato “DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation”, pubblicato solo il mese scorso. Il documento descrive un modello che adotta un approccio di diffusione per la generazione di codice, ma con una particolarità: “Quando la temperatura di campionamento viene aumentata dal valore predefinito di 0,2 a 1,2, DiffuCoder diventa più flessibile nell’ordine di generazione dei token, liberandosi dai vincoli stretti da sinistra a destra”.

Ciò significa che, regolando la temperatura, il modello può comportarsi in modo più (o meno) simile a un modello autoregressivo. In sostanza, temperature più alte gli danno maggiore flessibilità per generare token in ordine non sequenziale, mentre temperature più basse lo mantengono più vicino a una decodifica rigorosa da sinistra a destra.

Questo comportamento è particolarmente utile per la programmazione, dove la struttura globale è più importante della previsione lineare dei token.

​Fonte: 9to5Mac

articolo originale

Ricevi le ultime attualità sul mondo tech!

Salvatore Macrì
Salvatore Macrìhttps://it.linkedin.com/in/salmacri
Amante della tecnologia, della buona musica e della SEO, scrivo articoli per passione e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso.
ARTICOLI CORRELATI

Ultimi articoli