Dettagli su una della caratteristiche fondamentali dei moderni modelli di Intelligenza artificiale.
Google ci fornisce maggiori info sulle finestre di contesto, elementi essenziali per le capacità dell'intelligenza artificiale generativa, dopo l'annuncio di Gemini 1.5, il modello che può avere la finestra di contesto più lunga di tutte le AI disponibili oggi (ben 1 milione di token, contro i 128 mila, ad esempio, di GPT-4 Turbo).
Intelligenza artificiale, cos'è una finestra di contesto lunga
Oltre ai grandi miglioramenti in termini di velocità ed efficienza, una delle innovazioni di Gemini 1.5 è la sua lunga finestra di contesto, che misura quanti token (gli elementi costitutivi più piccoli, come parte di una parola, immagine o video) che il modello può elaborare a una volta. Per comprendere meglio il significato di questo traguardo, abbiamo chiesto al team del progetto Google DeepMind di spiegare cosa sono le finestre di contesto lunghe e in che modo questa innovativa funzionalità sperimentale può aiutare gli sviluppatori in molti modi.
Le finestre di contesto sono importanti perché aiutano i modelli di intelligenza artificiale a richiamare le informazioni durante una sessione. Hai mai dimenticato il nome di qualcuno nel bel mezzo di una conversazione pochi minuti dopo averlo detto, o hai mai attraversato di corsa una stanza per prendere un taccuino e annotare un numero di telefono che ti era appena stato dato? Ricordare le cose nel flusso di una conversazione può essere complicato anche per i modelli di intelligenza artificiale: potresti aver avuto un'esperienza in cui un chatbot ha "dimenticato" le informazioni dopo pochi turni. È qui che le finestre di contesto lunghe possono aiutare.
In precedenza, Gemini poteva elaborare fino a 32.000 token contemporaneamente, ma 1.5 Pro, il primo modello 1.5 che stiamo rilasciando per i primi test, ha una finestra di contesto fino a 1 milione di token , la finestra di contesto più lunga di qualsiasi modello di base su larga scala. ad oggi. In effetti, nella nostra ricerca abbiamo testato con successo anche fino a 10 milioni di token. Inoltre, più lunga è la finestra di contesto, maggiore è la quantità di testo, immagini, audio, codice o video che un modello può accogliere ed elaborare.
"Il nostro piano originale era quello di raggiungere 128.000 token nel contesto, e ho pensato che fissare un livello ambizioso sarebbe stato positivo, quindi ho suggerito 1 milione di token", afferma Nikolay Savinov, ricercatore di Google DeepMind, uno dei responsabili della ricerca sul progetto sul contesto lungo. "E ora nella nostra ricerca abbiamo addirittura superato questo valore di 10 volte."
Per fare questo tipo di balzo in avanti, il team ha dovuto apportare una serie di innovazioni relative al deep learning. "C'è stata una svolta che ha portato a un'altra e a un'altra ancora, e ognuna di esse ha aperto nuove possibilità", spiega Denis Teplyashin, ingegnere di Google DeepMind. "E poi, quando si sono messi tutti insieme, siamo rimasti piuttosto sorpresi nello scoprire cosa potevano fare, passando da 128.000 token a 512.000 token a 1 milione di token e, proprio di recente, 10 milioni di token nella nostra ricerca interna."
I dati grezzi che 1.5 Pro può gestire aprono modi completamente nuovi di interagire con il modello. Invece di riassumere un documento lungo decine di pagine, ad esempio, può riassumere documenti lunghi migliaia di pagine. Laddove il vecchio modello poteva aiutare ad analizzare migliaia di righe di codice, grazie alla sua innovativa finestra di contesto lunga, 1.5 Pro può analizzare decine di migliaia di righe di codice contemporaneamente.
"In un test, abbiamo inserito un intero codice base e ne è stata scritta la documentazione, il che è stato davvero interessante", afferma Machel Reid, ricercatore di Google DeepMind. "E c'è stato un altro test in cui è stato in grado di rispondere con precisione alle domande sul film Sherlock Jr. del 1924 dopo aver dato al modello l'intero film di 45 minuti da 'guardare'."
1.5 Pro può anche ragionare sui dati forniti in un prompt. "Uno dei miei esempi preferiti degli ultimi giorni è questa lingua rara, il Kalamang, parlata da meno di 200 persone in tutto il mondo, e su di essa esiste un manuale di grammatica", afferma Machel. "Il modello non può parlarlo da solo se gli chiedi semplicemente di tradurre in questa lingua, ma con la finestra di contesto lunga espansa, puoi inserire l'intero manuale di grammatica e alcuni esempi di frasi nel contesto, e il modello è stato in grado imparare a tradurre dall'inglese a Kalamang a un livello simile a quello di una persona che impara dallo stesso contenuto."
Gemini 1.5 Pro viene fornito standard con una finestra di contesto da 128.000 token, ma un gruppo limitato di sviluppatori e clienti aziendali può provarlo con una finestra di contesto fino a 1 milione di token tramite AI Studio e Vertex AI in anteprima privata. L'intera finestra di contesto da 1 milione di token è impegnativa dal punto di vista computazionale e richiede ancora ulteriori ottimizzazioni per migliorare la latenza, su cui stiamo lavorando attivamente man mano che la ampliamo.
E mentre guarda al futuro, il team continua a lavorare per rendere il modello più veloce ed efficiente, con la sicurezza al centro. Stanno anche cercando di espandere ulteriormente la finestra di contesto lunga, migliorare le architetture sottostanti e integrare nuovi miglioramenti hardware. "10 milioni di token contemporaneamente sono già vicini al limite termico delle nostre unità di elaborazione tensore: non sappiamo ancora dove sia il limite e il modello potrebbe essere in grado di fare ancora di più man mano che l'hardware continua a migliorare", afferma Nikolay.
Il team è entusiasta di vedere quali tipi di esperienze saranno in grado di realizzare anche gli sviluppatori e la comunità più ampia. "Quando ho visto per la prima volta che avevamo un milione di token nel contesto, la mia prima domanda è stata: 'Per cosa lo usi?'", afferma Machel. "Ma ora penso che l'immaginazione delle persone si stia espandendo e troveranno modi sempre più creativi per utilizzare queste nuove funzionalità."