GPT-4o de OpenAI: Innovación en Respuesta Multimodal

Un Avance en la Interacción Persona-Máquina

OpenAI ha revolucionado el campo de la inteligencia artificial con el lanzamiento de su nuevo modelo GPT-4o. Este innovador modelo de lenguaje, cuya ‘o’ significa ‘omni’, acepta y procesa de forma nativa una combinación de texto, audio e imagen, ofreciendo respuestas con una velocidad comparable a la de los humanos. La CTO de OpenAI, Mira Muratyi, destacó durante la presentación que GPT-4o es un paso significativo hacia una interacción más natural y fluida entre personas y computadoras.

Velocidad de Respuesta Impresionante

Una de las características más destacadas de GPT-4o es su capacidad para responder a entradas de voz con una latencia mínima de 232 milisegundos y un promedio de 320 milisegundos. Este tiempo de respuesta es comparable al de una conversación humana, lo que mejora enormemente la experiencia de usuario en aplicaciones de interacción por voz. Este rendimiento supera ampliamente al de sus predecesores, GPT-3.5 y GPT-4, que tenían latencias de 2.8 y 5.4 segundos, respectivamente, al utilizar una canalización de tres modelos separados para transcribir, procesar y generar audio.

Mejoras en Traducción y Multimodalidad

Para las entradas de texto, especialmente en inglés, GPT-4o iguala el rendimiento de GPT-4 Turbo, con mejoras significativas en la traducción en tiempo real de otros idiomas. Este nuevo modelo no solo es más rápido sino también un 50% más económico en la API. Además, GPT-4o combina todas las modalidades de entrada y salida (texto, audio, imagen) en una única red neuronal, lo que le permite generar respuestas más realistas y matizadas, observando el tono de voz, diferentes interlocutores y ruidos de fondo, elementos que sus predecesores no podían manejar.

Seguridad y Fiabilidad Incorporadas

El desarrollo de GPT-4o se ha realizado bajo el principio de seguridad por diseño. OpenAI ha implementado técnicas avanzadas de filtrado de datos y ha sometido el modelo a rigurosas pruebas de seguridad y precisión. Más de 70 especialistas en psicología y desinformación han supervisado el desarrollo para identificar y mitigar los riesgos asociados con las nuevas modalidades. Por el momento, OpenAI ha habilitado la entrada y salida de texto e imagen, mientras sigue trabajando en la infraestructura técnica y la seguridad necesarias para lanzar la modalidad de voz.

Despliegue y Accesibilidad

GPT-4o se está desplegando de manera iterativa y gratuita para los usuarios de la modalidad ChatGPT Plus. En las próximas semanas, OpenAI lanzará la versión alfa de la modalidad de voz para estos suscriptores. Los desarrolladores ya tienen acceso al modelo a través de la API, donde pueden probar las modalidades de texto e imagen y prepararse para las futuras actualizaciones.