Tutti i prodotti e i servizi Google avranno come base il nuovo e potentissimo LLM.
Aggiornamento febbraio 04, 2024 - A meno di un mese dalla presentazione del nuovo Large Language Model che alimenta Bard e gli altri prodotti zeppi di AI (tutti i dettagli nella stesura originaria di questo articolo, a seguire), Google è pronta ad un rebrand del suo chatbot, che sarà rinominato proprio Gemini.
In Nord America, la modifica è già stata annunciata nella pagina degli aggiornamenti di Bard, insieme ad altre novità importanti in arrivo. Il solito stato di arretratezza che avvolge l'Europa a causa delle stringenti misure su privacy e tutela dati degli utenti non ha consentito, almeno per il momento, di includere il nuovo changelog fra gli aggiornamenti di Bard, fermi dalle nostre parti alla distribuzione di Gemini Pro e del nuovo Generatore di immagini.
Google added a new changelog for Bard, and — oh boy — it's a big one!
— Dylan Roussel (@evowizz) February 3, 2024
The availability in Canada is awesome! That said I don't really understand the limitations with the app. That's disappointing as someone who lives in Europe.
Oh by the way... https://t.co/xM2snHVYJ9 is real. pic.twitter.com/QKgKrRjmM4
Sperando che questa volta le questioni burocratiche vengano risolte alla svelta dalle diverse autorità governative, oltre al cambio di nome, è in arrivo per Gemini un'app dedicata per dispositivi mobile, a partire ovviamente da Android.
Attendiamo sviluppi e dichiarazioni ufficiali da parte di Google nelle prossime ore per aggiornarvi nuovamente.
Articolo originale - dicembre 06, 2023 - Google spiazza tutti e, a sorpresa, annuncia con diverse settimane di anticipo rispetto a quanto preventivato il suo nuovo Large Language Model, Gemini.
Gemini sarà alla base di Bard, il chatbot di Intelligenza artificiale generativa di Big G, e di tutti gli altri servizi e prodotti a marchio Google, device della linea Pixel compresi.
Gemini per Bard è come GPT-4 per ChatGPT e Google assicura che il suo modello supera per distacco quello di OpenAI. Si parla addirittura di Gemini che batte ChatGPT in 30 dei 32 benchmark di riferimento.
Gemini sarà disponibili in tre varianti: Gemini Ultra, Gemini Pro e Gemini Nano. Gemini Pro sarà da subito implementato come base di Google Bard. I dettagli dall'annuncio ufficiale:
Google annuncia Gemini
Abbiamo ottimizzato Gemini 1.0, la nostra prima versione, per tre diverse dimensioni:
Gemini Ultra: il nostro modello più grande e capace per compiti altamente complessi.
Gemini Pro: il nostro miglior modello per adattarsi a un'ampia gamma di attività .
Gemini Nano: il nostro modello più efficiente per le attività sul dispositivo.
Abbiamo testato rigorosamente i nostri modelli Gemini e valutato le loro prestazioni su un'ampia varietà di attività . Dalla comprensione di immagini naturali, audio e video al ragionamento matematico, le prestazioni di Gemini Ultra superano gli attuali risultati all'avanguardia su 30 dei 32 benchmark accademici ampiamente utilizzati nella ricerca e nello sviluppo di modelli di linguaggio di grandi dimensioni (LLM).
Con un punteggio del 90,0%, Gemini Ultra è il primo modello a superare gli esperti umani in MMLU (massive multitask Language Understanding), che utilizza una combinazione di 57 materie come matematica, fisica, storia, diritto, medicina ed etica per testare entrambi i mondi. conoscenze e capacità di problem solving.
Il nostro nuovo approccio benchmark a MMLU consente a Gemini di utilizzare le sue capacità di ragionamento per pensare più attentamente prima di rispondere a domande difficili, portando a miglioramenti significativi rispetto al semplice utilizzo della sua prima impressione.
Gemini Ultra ottiene anche un punteggio all’avanguardia del 59,4% sul nuovo benchmark MMMU , che consiste in attività multimodali che abbracciano diversi domini che richiedono un ragionamento deliberato.
Con i benchmark delle immagini che abbiamo testato, Gemini Ultra ha sovraperformato i precedenti modelli all'avanguardia, senza l'assistenza dei sistemi di riconoscimento dei caratteri degli oggetti (OCR) che estraggono il testo dalle immagini per un'ulteriore elaborazione. Questi parametri evidenziano la multimodalità nativa di Gemini e indicano i primi segni delle capacità di ragionamento più complesse di Gemini.
Gemini 1.0 è stato addestrato per riconoscere e comprendere testo, immagini, audio e altro allo stesso tempo, quindi comprende meglio le informazioni più sfumate e può rispondere a domande relative ad argomenti complicati. Ciò lo rende particolarmente adatto a spiegare il ragionamento in argomenti complessi come la matematica e la fisica.
La nostra prima versione di Gemini è in grado di comprendere, spiegare e generare codice di alta qualità nei linguaggi di programmazione più diffusi al mondo, come Python, Java, C++ e Go. La sua capacità di lavorare attraverso linguaggi e di ragionare su informazioni complesse lo rende uno dei principali modelli di base per la codifica nel mondo.
Gemini Ultra eccelle in diversi benchmark di codifica, tra cui HumanEval, un importante standard di settore per valutare le prestazioni delle attività di codifica, e Natural2Code, il nostro set di dati interno, che utilizza fonti generate dall'autore anziché informazioni basate sul web.
Gemini può anche essere utilizzato come motore per sistemi di codifica più avanzati. Due anni fa abbiamo presentato AlphaCode, il primo sistema di generazione di codici AI a raggiungere un livello competitivo di prestazioni nelle competizioni di programmazione.
Utilizzando una versione specializzata di Gemini, abbiamo creato un sistema di generazione di codice più avanzato, AlphaCode 2, che eccelle nel risolvere problemi di programmazione competitiva che vanno oltre la codifica per coinvolgere matematica complessa e informatica teorica.
Se valutato sulla stessa piattaforma dell'AlphaCode originale, AlphaCode 2 mostra enormi miglioramenti, risolvendo quasi il doppio dei problemi e stimiamo che abbia prestazioni migliori dell'85% dei partecipanti alla competizione, rispetto a quasi il 50% di AlphaCode. Quando i programmatori collaborano con AlphaCode 2 definendo determinate proprietà per gli esempi di codice da seguire, le prestazioni sono ancora migliori.
Siamo entusiasti che i programmatori utilizzino sempre più modelli di intelligenza artificiale altamente capaci come strumenti collaborativi che possano aiutarli a ragionare sui problemi, proporre progetti di codice e assistere nell'implementazione, in modo che possano rilasciare app e progettare servizi migliori, più velocemente.
Abbiamo addestrato Gemini 1.0 su larga scala sulla nostra infrastruttura ottimizzata per l'intelligenza artificiale utilizzando le Tensor Processing Unit (TPU) v4 e v5e progettate internamente da Google . E lo abbiamo progettato affinché fosse il nostro modello più affidabile e scalabile da addestrare e il più efficiente da servire.
Sui TPU, Gemini funziona molto più velocemente rispetto ai modelli precedenti, più piccoli e con meno capacità . Questi acceleratori IA progettati su misura sono stati il cuore dei prodotti basati sull'intelligenza artificiale di Google che servono miliardi di utenti come Ricerca, YouTube, Gmail, Google Maps, Google Play e Android. Hanno inoltre consentito alle aziende di tutto il mondo di addestrare modelli di intelligenza artificiale su larga scala in modo economicamente efficiente.
Oggi annunciamo il sistema TPU più potente, efficiente e scalabile mai realizzato, Cloud TPU v5p , progettato per l'addestramento di modelli IA all'avanguardia. Questa TPU di prossima generazione accelererà lo sviluppo di Gemini e aiuterà gli sviluppatori e i clienti aziendali ad addestrare più rapidamente modelli di intelligenza artificiale generativa su larga scala, consentendo a nuovi prodotti e funzionalità di raggiungere i clienti prima.
Noi di Google ci impegniamo a promuovere un'intelligenza artificiale audace e responsabile in tutto ciò che facciamo. Basandoci sui principi AI di Google e sulle solide norme di sicurezza dei nostri prodotti, stiamo aggiungendo nuove protezioni per tenere conto delle capacità multimodali di Gemini. In ogni fase dello sviluppo, consideriamo i potenziali rischi e lavoriamo per testarli e mitigarli.
Gemini dispone delle valutazioni di sicurezza più complete di qualsiasi modello di intelligenza artificiale di Google fino ad oggi, anche per quanto riguarda bias e tossicità . Abbiamo condotto nuove ricerche su potenziali aree di rischio come i reati informatici, la persuasione e l'autonomia e abbiamo applicato le migliori tecniche di test contraddittorio di Google Research per aiutare a identificare i problemi critici di sicurezza prima dell'implementazione di Gemini.
Per identificare i punti ciechi nel nostro approccio di valutazione interna, stiamo lavorando con un gruppo eterogeneo di esperti e partner esterni per sottoporre a stress test i nostri modelli su una serie di questioni.
Per diagnosticare i problemi di sicurezza dei contenuti durante le fasi di formazione di Gemini e garantire che i risultati rispettino le nostre politiche, utilizziamo benchmark come Real Toxicity Prompts , un insieme di 100.000 prompt con vari gradi di tossicità estratti dal Web, sviluppati da esperti dell'Allen Institute per l'IA. Ulteriori dettagli su questo lavoro arriveranno presto.
Per limitare i danni, abbiamo creato classificatori di sicurezza dedicati per identificare, etichettare e ordinare, ad esempio, contenuti che coinvolgono violenza o stereotipi negativi. Combinato con filtri robusti, questo approccio a più livelli è progettato per rendere Gemini più sicuro e più inclusivo per tutti. Inoltre, stiamo continuando ad affrontare le sfide note per modelli quali fattualità , fondamento, attribuzione e conferma.
Responsabilità e sicurezza saranno sempre al centro dello sviluppo e dell’implementazione dei nostri modelli. Si tratta di un impegno a lungo termine che richiede uno sviluppo collaborativo, quindi stiamo collaborando con il settore e con un ecosistema più ampio per definire le migliori pratiche e stabilire parametri di riferimento in materia di sicurezza e protezione attraverso organizzazioni come MLCommons, Frontier Model Forum e il suo AI Safety Fund, e il nostro Secure AI Framework (SAIF), progettato per contribuire a mitigare i rischi di sicurezza specifici dei sistemi di intelligenza artificiale nei settori pubblico e privato. Continueremo a collaborare con ricercatori, governi e gruppi della società civile di tutto il mondo mentre sviluppiamo Gemini.
Gemini Pro nei prodotti Google
Stiamo portando Gemini a miliardi di persone attraverso i prodotti Google.
A partire da oggi, Bard utilizzerà una versione ottimizzata di Gemini Pro per ragionamenti, pianificazione, comprensione e altro ancora più avanzati. Questo è il più grande aggiornamento di Bard dal suo lancio. Sarà disponibile in inglese in più di 170 paesi e territori e prevediamo di espanderlo in diverse modalità e supportare nuove lingue e località nel prossimo futuro.
Stiamo anche portando Gemini su Pixel. Pixel 8 Pro è il primo smartphone progettato per eseguire Gemini Nano, che sta alimentando nuove funzionalità come Riepiloga nell'app Registratore e implementato in Smart Reply in Gboard, a partire da WhatsApp, con altre app di messaggistica in arrivo l'anno prossimo.
Nei prossimi mesi, Gemini sarà disponibile in altri nostri prodotti e servizi come Ricerca, Annunci, Chrome e Duet AI.
Gemini Ultra in arrivo
Per Gemini Ultra, stiamo attualmente completando approfonditi controlli di fiducia e sicurezza, incluso il red-teaming di soggetti esterni fidati, e perfezionando ulteriormente il modello utilizzando la messa a punto e l'apprendimento di rinforzo dal feedback umano (RLHF) prima di renderlo ampiamente disponibile.
Come parte di questo processo, renderemo Gemini Ultra disponibile a clienti, sviluppatori, partner ed esperti di sicurezza e responsabilità selezionati per la sperimentazione e il feedback iniziali prima di distribuirlo agli sviluppatori e ai clienti aziendali all'inizio del prossimo anno.
All'inizio del prossimo anno lanceremo anche Bard Advanced, una nuova esperienza IA all'avanguardia che ti darà accesso ai nostri migliori modelli e funzionalità , a partire da Gemini Ultra.
Articolo di HTNovo