OpenAI lanza GPT-4o con nuevas funciones emocionales y multimodales

OpenAI presentó la última versión de su popular chatbot de inteligencia artificial, ChatGPT, denominada GPT-4o. Esta nueva iteración combina audio, imagen y texto, y estará disponible de manera gratuita para todos los usuarios, con funcionalidades adicionales para los suscriptores.

Mira Murati, directora de tecnología de OpenAI, anunció la actualización desde San Francisco, destacando que GPT-4o integra características de chatbots, asistentes de voz y modelos de procesamiento de imágenes en una sola herramienta. “Mientras Apple y Google transforman sus asistentes de voz en chatbots, OpenAI convierte su chatbot en un asistente de voz”, comentó un reportero de tecnología de The New York Times.

Novedades y Mejoras

  1. Conversaciones Fluidas y Emotivas: GPT-4o responde a peticiones de audio en un promedio de 320 milisegundos, similar a la respuesta humana en una conversación en inglés. Puede generar respuestas en diversos estilos emotivos, como “dramático” o “sarcástico”.
  2. “Sé mis Ojos”: Esta función, desarrollada junto a la aplicación danesa Be My Eyes, permite a GPT-4o describir en tiempo real lo que ocurre a través de la cámara, ayudando a personas con discapacidad visual a identificar objetos y emociones en expresiones faciales.
  3. Traducción en Tiempo Real: GPT-4o puede traducir conversaciones entre personas que hablan diferentes idiomas y nombrar objetos mostrados a la cámara en otros idiomas, aunque con algunos errores.
  4. Asistencia en Reuniones: El modelo puede transcribir y resumir reuniones, facilitando la toma de notas y el seguimiento de discusiones.
  5. Ayuda con las Matemáticas: GPT-4o guía a los estudiantes en la resolución de problemas matemáticos sin proporcionar directamente la respuesta, corrigiendo errores y haciendo preguntas para guiar el proceso.
  6. Generación de Imágenes: Incluye funcionalidades de generación de imágenes como Dall-E, permitiendo crear imágenes a partir de comandos de texto, convertir fotos en caricaturas y diseñar pósters de películas.

Durante la demostración en vivo, se presentaron algunos errores. En un caso, la IA confundió al presentador sonriente con una superficie de madera. En otro, comenzó a resolver una ecuación que aún no se le había mostrado. Según James O’Donnell de MIT Technology Review, la IA a veces intervenía de manera incómoda en la conversación y comentaba el atuendo de uno de los presentadores sin ser solicitado, destacando que aún existen problemas y “alucinaciones” que deben ser solucionados.

Sam Altman, fundador de OpenAI, hizo referencia a la película “Her” de 2013 en un mensaje en la red social X, sugiriendo una visión futurista de la relación entre humanos y sistemas operativos avanzados.

GPT-4o promete una experiencia más rápida y fluida, fusionando múltiples modelos en una única herramienta. Sin embargo, los desafíos técnicos persisten, subrayando la necesidad de mejorar la fiabilidad y seguridad de los chatbots.

Esta nueva versión marca un avance significativo en la inteligencia artificial, buscando facilitar la interacción humana con tecnologías emergentes mientras enfrenta críticas y retos propios de su evolución.