Ragiona, cambia approccio e si modifica nei rapporti con gli umani in tempo reale su input e output audio, visione e testo.
Come previsto, OpenAI ha stupito tutti durante l'evento Spring Update annunciando il suo nuovo e più avanzato modello linguistico di grandi dimensioni che spingerà ChatGPT. Il nuovo LLM, successore di GPT-4, si chiama GPT-4o, dove la 'o' sta per Omni.
GPT-4o è disponibile in API e ChatGPT da subito e per tutti, anche account gratuiti o profili senza account, per gli input di testo e immagini, con voce e video che lo saranno a partire dalle prossime settimane.
GPT-4o è un passo avanti verso un'interazione uomo-computer molto più naturale: accetta come input qualsiasi combinazione di testo, audio e immagine e genera qualsiasi combinazione di output di testo, audio e immagine. Può rispondere agli input audio in soli 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano in una conversazione. Eguaglia le prestazioni di GPT-4 Turbo su testo in inglese e codice, con un miglioramento significativo su testo in lingue diverse dall'inglese, oltre ad essere molto più veloce e più economico del 50% nell'API. GPT-4o è particolarmente migliore nella comprensione della visione e dell'audio rispetto ai modelli esistenti.
Con GPT-4o, abbiamo addestrato un unico nuovo modello end-to-end su testo, visione e audio, il che significa che tutti gli input e gli output vengono elaborati dalla stessa rete neurale. Poiché GPT-4o è il nostro primo modello che combina tutte queste modalità, stiamo ancora solo esplorando la superficie dell'esplorazione di ciò che il modello può fare e dei suoi limiti.
Come misurato sui benchmark tradizionali, GPT-4o raggiunge prestazioni di livello GPT-4 Turbo sull'intelligenza di testo, ragionamento e codifica, stabilendo al contempo nuovi limiti elevati sulle capacità multilingue, audio e visive.
Trovate ulteriori dettagli su GPT-4o ed altre demo pubblicate oltre a quelle che vedete in questo articolo puntando il browser qui.