Con il suo impegno intransigente per la privacy degli utenti, Apple ha affrontato sfide nel raccogliere dati sufficienti per addestrare i modelli di linguaggio avanzati che alimentano le funzionalità di Apple Intelligence e che, in ultima analisi, miglioreranno Siri. Per migliorare Apple Intelligence, Apple deve sviluppare opzioni che preservino la privacy durante l’addestramento dell’IA, e alcune delle metodologie utilizzate dall’azienda sono state descritte in un nuovo post sul blog di ricerca sul machine learning.
Apple ha bisogno di dati degli utenti per migliorare strumenti di sintesi, scrittura e altre funzionalità di Apple Intelligence, ma non vuole raccogliere dati da singoli utenti. Pertanto, Apple ha trovato un modo per comprendere le tendenze di utilizzo utilizzando la privacy differenziale e dati non collegati a nessuna persona specifica. Apple sta creando dati sintetici che rappresentano tendenze aggregate nei dati reali degli utenti e utilizza il rilevamento sul dispositivo per effettuare confronti, fornendo all’azienda informazioni senza la necessità di accedere a informazioni sensibili.
Il processo funziona così: Apple genera più email sintetiche su argomenti comuni nelle email degli utenti, come un invito a giocare a tennis alle 15:00. Successivamente, Apple crea un “embedding” da quell’email con informazioni specifiche su linguaggio, argomento e lunghezza. Apple potrebbe creare diversi embedding con variazioni nella lunghezza e nelle informazioni delle email.
Questi embedding vengono inviati a un piccolo numero di utenti iPhone che hanno attivato Device Analytics, e gli iPhone che ricevono gli embedding selezionano un campione di email reali degli utenti e calcolano embedding per quelle email reali. Gli embedding sintetici creati da Apple vengono confrontati con l’embedding per l’email reale, e l’iPhone dell’utente decide quale degli embedding sintetici è più vicino al campione reale.
Apple utilizza quindi la privacy differenziale per determinare quali degli embedding sintetici sono selezionati più comunemente su tutti i dispositivi, in modo da sapere come sono formulate le email più comunemente senza mai vedere le email degli utenti e senza sapere quali dispositivi specifici hanno selezionato quali embedding come i più simili.
Apple afferma che gli embedding sintetici selezionati più frequentemente possono essere utilizzati per generare dati di addestramento o test, o possono essere utilizzati come esempi per un ulteriore affinamento dei dati. Questo processo fornisce ad Apple un modo per migliorare gli argomenti e il linguaggio delle email sintetiche, che a sua volta addestra i modelli a creare migliori output di testo per i riassunti delle email e altre funzionalità, il tutto senza violare la privacy degli utenti.
Apple adotta un approccio simile per Genmoji, utilizzando la privacy differenziale per identificare prompt e schemi di prompt popolari che possono essere utilizzati per migliorare la funzionalità di generazione delle immagini. Apple utilizza una tecnica per garantire che riceva solo prompt Genmoji utilizzati da centinaia di persone, e nulla di specifico o unico che potrebbe identificare una persona individuale.
Apple non può vedere Genmoji associati a un dispositivo personale, e tutti i segnali trasmessi sono anonimizzati e includono rumore casuale per nascondere l’identità dell’utente. Inoltre, Apple non collega alcun dato a dispositivi specifici.
Fonte: MacRumors
Ricevi le ultime attualità sul mondo tech!