AI sempre più potente e complessa: Google annuncia Gemini 1.5

feb 15, 2024

Il nuovo modello di prossima generazione di Google spazza via tutto ciò che si è visto sino ad oggi.

AI sempre più potente e complessa: Google annuncia Gemini 1.5

A pochi giorni dal rebrand del suo chatbot AI e delle nuove possibilità offerte a tutti con l'implementazione di Gemini 1.0, il gigante del software ha annunciato oggi il nuovo modello di prossima generazione, Gemini 1.5. I dettagli dal post ufficiale:

Presentazione di Gemini 1.5

Di Demis Hassabis, CEO di Google DeepMind, a nome del team Gemini

Questo è un momento entusiasmante per l’intelligenza artificiale. I nuovi progressi nel campo hanno il potenziale per rendere l’intelligenza artificiale più utile per miliardi di persone nei prossimi anni. Dall'introduzione di Gemini 1.0, abbiamo testato, perfezionato e migliorato le sue capacità.

Oggi annunciamo il nostro modello di prossima generazione: Gemini 1.5.

Gemini 1.5 offre prestazioni notevolmente migliorate. Rappresenta un cambiamento radicale nel nostro approccio, basato sulla ricerca e sulle innovazioni ingegneristiche in quasi ogni parte del nostro modello di sviluppo e infrastruttura di base. Ciò include rendere Gemini 1.5 più efficiente per la formazione e il servizio, con una nuova architettura Mixture-of-Experts (MoE).

Il primo modello Gemini 1.5 che rilasceremo per i primi test è Gemini 1.5 Pro. È un modello multimodale di medie dimensioni, ottimizzato per adattarsi a un'ampia gamma di attività e funziona a un livello simile a 1.0 Ultra , il nostro modello più grande fino ad oggi. Introduce inoltre una caratteristica sperimentale rivoluzionaria nella comprensione del contesto lungo.

Gemini 1.5 Pro viene fornito con una finestra di contesto standard da 128.000 token. Ma a partire da oggi, un gruppo limitato di sviluppatori e clienti aziendali può provarlo con una finestra di contesto fino a 1 milione di token tramite AI Studio e Vertex AI in anteprima privata.

Mentre implementiamo l'intera finestra di contesto di 1 milione di token, stiamo lavorando attivamente alle ottimizzazioni per migliorare la latenza, ridurre i requisiti computazionali e migliorare l'esperienza dell'utente. Siamo entusiasti che le persone provino questa funzionalità rivoluzionaria e di seguito condividiamo maggiori dettagli sulla disponibilità futura.

Questi continui progressi nei nostri modelli di prossima generazione apriranno nuove possibilità a persone, sviluppatori e imprese di creare, scoprire e costruire utilizzando l’intelligenza artificiale.

Lunghezze del contesto dei principali modelli di fondazione

Architettura altamente efficiente

Gemini 1.5 si basa sulla nostra ricerca leader sull'architettura Transformer e MoE. Mentre un trasformatore tradizionale funziona come un’unica grande rete neurale, i modelli MoE sono divisi in reti neurali “esperte” più piccole.

A seconda del tipo di input fornito, i modelli MoE imparano ad attivare selettivamente solo i percorsi esperti più rilevanti nella sua rete neurale. Questa specializzazione migliora enormemente l'efficienza del modello. Google è stato uno dei primi ad adottare e pioniere della tecnica MoE per il deep learning attraverso ricerche come MoE Sparsely-Gated , GShard-Transformer, Switch-Transformer, M4 e altre.

Le nostre ultime innovazioni nell'architettura del modello consentono a Gemini 1.5 di apprendere attività complesse più rapidamente e di mantenere la qualità, pur essendo più efficiente nell'addestramento e nel servizio. Queste efficienze stanno aiutando i nostri team a iterare, addestrare e fornire versioni più avanzate di Gemini più velocemente che mai e stiamo lavorando su ulteriori ottimizzazioni.

Maggiore contesto, funzionalità più utili

La “finestra di contesto” di un modello di intelligenza artificiale è costituita da token, che sono gli elementi costitutivi utilizzati per l'elaborazione delle informazioni. I token possono essere intere parti o sottosezioni di parole, immagini, video, audio o codice. Quanto più grande è la finestra di contesto di un modello, tanto più informazioni può accogliere ed elaborare in un dato prompt, rendendo il suo output più coerente, pertinente e utile.

Attraverso una serie di innovazioni di apprendimento automatico, abbiamo aumentato la capacità della finestra di contesto di 1.5 Pro ben oltre i 32.000 token originali per Gemini 1.0. Ora possiamo gestire fino a 1 milione di token in produzione.

Ciò significa che 1.5 Pro può elaborare grandi quantità di informazioni in una volta sola, tra cui 1 ora di video, 11 ore di audio, basi di codice con oltre 30.000 righe di codice o oltre 700.000 parole. Nella nostra ricerca, abbiamo anche testato con successo fino a 10 milioni di token.

Ragionamento complesso su grandi quantità di informazioni

1.5 Pro può analizzare, classificare e riepilogare senza problemi grandi quantità di contenuti all'interno di un determinato prompt. Ad esempio, quando vengono fornite le trascrizioni di 402 pagine della missione Apollo 11 sulla Luna, è possibile ragionare su conversazioni, eventi e dettagli trovati nel documento.

Gemini 1.5 Pro è in grado di comprendere, ragionare e identificare dettagli curiosi nelle trascrizioni di 402 pagine della missione Apollo 11 sulla luna.

Migliore comprensione e ragionamento attraverso le modalità

1.5 Pro può eseguire attività di comprensione e ragionamento altamente sofisticate per diverse modalità, inclusi i video. Ad esempio, quando viene visto un film muto di 44 minuti di Buster Keaton, il modello può analizzare accuratamente vari punti ed eventi della trama e persino ragionare su piccoli dettagli del film che potrebbero facilmente sfuggire.

Gemini 1.5 Pro è in grado di identificare una scena in un film muto di 44 minuti di Buster Keaton quando gli viene fornito un semplice disegno a tratteggio come materiale di riferimento per un oggetto della vita reale.

Risoluzione di problemi rilevanti con blocchi di codice più lunghi

1.5 Pro può eseguire attività di risoluzione dei problemi più rilevanti su blocchi di codice più lunghi. Quando viene ricevuto un prompt con più di 100.000 righe di codice, può ragionare meglio tra esempi, suggerire modifiche utili e fornire spiegazioni su come funzionano le diverse parti del codice.

Gemini 1.5 Pro può ragionare su 100.000 righe di codice fornendo soluzioni, modifiche e spiegazioni utili.

Prestazioni migliorate

Se testato su un panel completo di valutazioni di testo, codice, immagini, audio e video, 1.5 Pro supera 1.0 Pro nell'87% dei benchmark utilizzati per lo sviluppo dei nostri modelli linguistici di grandi dimensioni (LLM). E se confrontato con 1.0 Ultra sugli stessi benchmark, funziona a un livello sostanzialmente simile.

Gemini 1.5 Pro mantiene alti livelli di prestazioni anche quando la finestra di contesto aumenta. Nella valutazione Needle In A Haystack (NIAH), in cui un piccolo pezzo di testo contenente un particolare fatto o affermazione è appositamente inserito all'interno di un lungo blocco di testo, 1.5 Pro ha trovato il testo incorporato il 99% delle volte, in blocchi di dati come fino a 1 milione di token.

Gemini 1.5 Pro mostra anche impressionanti capacità di "apprendimento nel contesto", il che significa che può apprendere una nuova abilità dalle informazioni fornite in un lungo messaggio, senza bisogno di ulteriori perfezionamenti. Abbiamo testato questa abilità sul benchmark Machine Translation from One Book (MTOB), che mostra quanto bene il modello apprende da informazioni mai viste prima. Quando gli viene dato un manuale di grammatica per Kalamang , una lingua con meno di 200 parlanti in tutto il mondo, il modello impara a tradurre l'inglese in Kalamang a un livello simile a quello di una persona che apprende dallo stesso contenuto.

Poiché la finestra contestuale lunga di 1.5 Pro è la prima del suo genere tra i modelli su larga scala, sviluppiamo continuamente nuove valutazioni e parametri di riferimento per testare le sue nuove capacità.

Test etici e di sicurezza approfonditi

In linea con i nostri principi sull'intelligenza artificiale e le solide politiche di sicurezza, stiamo garantendo che i nostri modelli siano sottoposti a test etici e di sicurezza approfonditi. Integriamo quindi questi insegnamenti della ricerca nei nostri processi di governance e modelliamo lo sviluppo e le valutazioni per migliorare continuamente i nostri sistemi di intelligenza artificiale.

Dall'introduzione della versione 1.0 Ultra a dicembre, i nostri team hanno continuato a perfezionare il modello, rendendolo più sicuro per un rilascio più ampio. Abbiamo anche condotto nuove ricerche sui rischi per la sicurezza e sviluppato tecniche di red-teaming per testare una serie di potenziali danni.

Prima del rilascio della versione 1.5 Pro, abbiamo adottato lo stesso approccio all'implementazione responsabile dei nostri modelli Gemini 1.0, conducendo valutazioni approfondite in aree tra cui la sicurezza dei contenuti e i danni rappresentativi, e continueremo ad espandere questi test. Oltre a ciò, stiamo sviluppando ulteriori test che tengano conto delle nuove capacità di contesto lungo di 1.5 Pro.

Costruisci e sperimenta con i modelli Gemini

Ci impegniamo a portare ogni nuova generazione di modelli Gemini a miliardi di persone, sviluppatori e aziende in tutto il mondo in modo responsabile.

A partire da oggi, offriamo un'anteprima limitata di 1.5 Pro a sviluppatori e clienti aziendali tramite AI Studio e Vertex AI.

Introdurremo la versione 1.5 Pro con una finestra di contesto standard da 128.000 token quando il modello sarà pronto per una versione più ampia. A breve prevediamo di introdurre livelli di prezzo che partono dalla finestra di contesto standard di 128.000 e si espandono fino a 1 milione di token, man mano che miglioriamo il modello.

I primi tester possono provare gratuitamente la finestra di contesto da 1 milione di token durante il periodo di test, anche se dovrebbero aspettarsi tempi di latenza più lunghi con questa funzionalità sperimentale. All’orizzonte si profilano anche miglioramenti significativi in ​​termini di velocità.

Gli sviluppatori interessati a testare 1.5 Pro possono registrarsi ora in AI Studio, mentre i clienti aziendali possono contattare il team dell'account Vertex AI.

Articolo di HTNovo
Creative Commons License

Modulo di contatto

Archivio