DeepSeek revoluciona la generación de imágenes con el lanzamiento de Janus Pro

Un nuevo modelo generativo que combina comprensión multimodal avanzada y realismo visual

La empresa tecnológica china DeepSeek, reconocida por el éxito de su chatbot homónimo que lideró las descargas de aplicaciones gratuitas en la App Store, ha anunciado el lanzamiento de Janus Pro, un modelo generativo diseñado para producir imágenes “altamente realistas” con detalles precisos, incluso a bajas resoluciones. Este desarrollo representa una evolución significativa en la familia de modelos Janus, mejorando tanto la generación de imágenes como la comprensión multimodal.

Características principales de Janus Pro

Janus Pro incorpora una estrategia de entrenamiento optimizada, datos de entrenamiento ampliados y escalabilidad a modelos de mayor tamaño. Se ofrece en dos configuraciones:

  • 1B: Un modelo con mil millones de parámetros activados.
  • 7B: Una versión más robusta, con siete mil millones de parámetros, que mejora significativamente la estabilidad en la generación de texto a imagen y la comprensión multimodal.

El modelo utiliza como base el lenguaje visual DeepSeek VL2, que cuenta con 4,500 millones de parámetros activados. Según DeepSeek, esta estructura permite un rendimiento competitivo o de vanguardia en comparación con otros modelos de código abierto, incluso aquellos más grandes basados en MoE (Mixture of Experts).

Innovaciones en la comprensión multimodal

Uno de los aspectos más destacados de Janus Pro es su capacidad para superar modelos más grandes, como TokenFlow XL (13B), en tareas de comprensión multimodal. Esto se debe a una técnica de disociación en la codificación visual, que separa las tareas de comprensión y generación de manera efectiva. Este enfoque minimiza los conflictos entre ambas funciones, mejorando los resultados de manera considerable.

Resultados en generación de texto a imagen

En pruebas especializadas como GenEval y DPG-Bench, Janus Pro 7B alcanzó resultados sobresalientes:

  • En GenEval, logró una precisión general del 80%, superando a Dall-E 3, que obtuvo un 67%.
  • En DPG-Bench, alcanzó una puntuación de 84.19, consolidándose como una herramienta efectiva para tareas que requieren seguir instrucciones precisas.

Pese a que las imágenes generadas mantienen una resolución limitada de 384 x 384 píxeles, estas presentan un nivel de detalle y realismo que DeepSeek califica como “altamente realistas”.

Infraestructura tecnológica detrás de Janus Pro

El desarrollo de Janus Pro se ha apoyado en la experiencia de DeepSeek en modelos avanzados. Su base tecnológica incluye el modelo DeepSeek V3, que ha sido entrenado con 2,048 GPU Nvidia H800 a un coste de 5.6 millones de dólares. Este modelo ofrece un rendimiento comparable o superior a otros referentes de la industria, como Claude 3.5 Sonnet, Llama 3.1 40B y GPT 4o.

Expansión de la familia DeepSeek

Además de Janus Pro, la compañía ha lanzado recientemente otros modelos enfocados en tareas de razonamiento: DeepSeek-R1-Zero y DeepSeek-R1. Este último destaca por alcanzar un rendimiento en tareas de razonamiento que la compañía asegura es comparable a los estándares de OpenAI.

DeepSeek continúa posicionándose como uno de los líderes en el desarrollo de modelos generativos y soluciones avanzadas de inteligencia artificial, impulsando el límite de lo que es posible en la interacción entre lenguaje e imágenes.