HomeNews TechApple ha appena rilasciato un modello di linguaggio di programmazione stranamente interessante

Apple ha appena rilasciato un modello di linguaggio di programmazione stranamente interessante

Apple lancia un nuovo modello di intelligenza artificiale su Hugging Face con una caratteristica interessante. A differenza dei tradizionali modelli di linguaggio di grandi dimensioni (LLM) che generano testo in modo sequenziale (da sinistra a destra, dall’alto verso il basso), questo modello è in grado di scrivere in modo non sequenziale e migliorare più parti contemporaneamente. Il risultato è una generazione di codice più veloce, con prestazioni che rivaleggiano con i migliori modelli open-source per la programmazione.

Come funziona

Prima di addentrarci nei dettagli, è importante comprendere alcuni concetti (semplificati per efficienza). Tradizionalmente, la maggior parte degli LLM è stata autoregressiva. Ciò significa che, quando si pone una domanda, il modello elabora l’intera domanda, prevede il primo token della risposta, rielabora la domanda con il primo token, prevede il secondo token, e così via. Questo li porta a generare testo come la maggior parte di noi legge: da sinistra a destra, dall’alto verso il basso.

Gli LLM hanno un’impostazione chiamata temperatura che controlla quanto casuale può essere l’output. Quando si prevede il token successivo, il modello assegna probabilità a tutte le opzioni possibili. Una temperatura più bassa rende più probabile la scelta del token più probabile, mentre una temperatura più alta dà maggiore libertà di scegliere quelli meno probabili.

Modelli di diffusione

Un’alternativa ai modelli autoregressivi sono i modelli di diffusione, più spesso utilizzati nei modelli di immagini come Stable Diffusion. In sintesi, il modello parte da un’immagine sfocata e rumorosa e rimuove iterativamente il rumore tenendo conto della richiesta dell’utente, orientandosi verso qualcosa che assomiglia sempre più a ciò che l’utente ha richiesto.

Ultimamente, alcuni grandi modelli di linguaggio hanno guardato all’architettura di diffusione per generare testo, e i risultati sono stati piuttosto promettenti. Perché i modelli di testo basati sulla diffusione possono essere più veloci di quelli autoregressivi? Perché possono, in sostanza, affinare iterativamente l’intero testo in parallelo.

DiffuCode-7B-cpGRPO

Apple ha rilasciato un modello open-source chiamato DiffuCode-7B-cpGRPO, basato su un documento intitolato “DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation”, pubblicato solo il mese scorso. Il documento descrive un modello che adotta un approccio di diffusione per la generazione di codice, ma con una particolarità: “Quando la temperatura di campionamento viene aumentata dal valore predefinito di 0,2 a 1,2, DiffuCoder diventa più flessibile nell’ordine di generazione dei token, liberandosi dai vincoli stretti da sinistra a destra”.

Ciò significa che, regolando la temperatura, il modello può comportarsi in modo più (o meno) simile a un modello autoregressivo. In sostanza, temperature più alte gli danno maggiore flessibilità per generare token in ordine non sequenziale, mentre temperature più basse lo mantengono più vicino a una decodifica rigorosa da sinistra a destra.

Questo comportamento è particolarmente utile per la programmazione, dove la struttura globale è più importante della previsione lineare dei token.

​Fonte: 9to5Mac

Per saperne di più

Salvatore Macrì
Salvatore Macrìhttps://it.linkedin.com/in/salmacri
Amante della tecnologia e della buona musica, scrivo articoli per passione e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso.
TI POTREBBERO INTERESSARE

ARTICOLI CONSIGLIATI

Android ha finalmente il suo AirDrop

Android con AirDrop: tutti i dispositivi compatibili

Se hai un iPhone e un amico con Android ti ha mai chiesto "ma come ti mando questa foto?", sai già di cosa stiamo parlando. Per anni, la condivisione rapida di file tra dispositivi Android è rimasta un territorio frammentato, confuso, pieno di app di terze parti e workaround poco eleganti. Google ha risposto con Nearby Share, poi ribattezzato Quick Share dopo la collaborazione con Samsung — ma la verità è che non ha mai raggiunto la semplicità disarmante di AirDrop.Adesso però qualcosa si muove. Google sta spingendo forte su una funzione che punta a replicare l'esperienza AirDrop su Android, e la lista dei dispositivi supportati è appena diventata più chiara.
Xiaomi Pad 8 Pro vs OnePlus Pad 3

Xiaomi Pad 8 Pro vs OnePlus Pad 3: quale...

Il mercato dei tablet Android di fascia media-alta si sta facendo sempre più interessante. E quando due prodotti come la Xiaomi Pad 8 Pro e la OnePlus Pad 3 si fronteggiano a prezzi simili, la domanda sorge spontanea: quale delle due è davvero l'affare migliore? Frandroid ha fatto i conti, e i numeri raccontano una storia che vale la pena approfondire.
iPhone Fold

iPhone Fold: tutto quello che sappiamo (e quello che...

Se segui il mondo Apple da un po', sai benissimo come funziona il ciclo delle voci: prima arrivano i rumor vaghi, poi le indiscrezioni più dettagliate, poi le presunte foto dei componenti, e alla fine — se tutto va bene — il prodotto vero. Con l'iPhone Fold, siamo entrati ufficialmente nella fase calda. I segnali si moltiplicano, e alcuni di questi sono piuttosto concreti.
Nintendo Switch 2

Nintendo Switch 2: perché comprarne una?

Il mondo dei videogiochi è in costante evoluzione, e negli ultimi decenni abbiamo assistito a delle vere rivoluzioni. Tra le aziende che si sono contraddistinte di più in questo settore c’è sicuramente Nintendo. L’azienda giapponese ha una lunga storia alle spalle, e sulle sue console ha portato in esclusiva molti brand che sono diventati delle vere e proprie icone, come Super Mario e Pokémon.