IA se “vuelve tonta” si se entrena con contenido basura

Un estudio mide el impacto de los datos triviales en la inteligencia artificial

Un equipo de universidades en Estados Unidos investigó la hipótesis del deterioro mental de las IA y encontró evidencia preocupante: cuando los modelos de inteligencia artificial consumen grandes cantidades de contenido trivial, su capacidad de razonamiento y memoria disminuye de forma notable. El análisis desafía la percepción de que toda la información en internet sirve como entrenamiento y subraya la importancia de usar datos de calidad para desarrollar sistemas confiables.

El estudio se llevó a cabo en Texas A&M, la Universidad de Texas y Purdue. Los investigadores observaron que, así como los humanos pueden experimentar una pérdida de atención y empatía cuando consumen contenido superficial, las IA también sufren efectos negativos si su entrenamiento se basa en datos irrelevantes o triviales. Además, destacaron que el problema podría empeorar de manera exponencial si los modelos futuros se alimentan de información generada por otras IA.

Cómo definieron la “basura digital”

El desafío principal consistió en establecer qué se considera contenido basura. Para lograrlo, los científicos analizaron más de 100 millones de publicaciones en redes sociales. Se enfocaron en mensajes muy cortos, virales y con alta interacción, relacionados con temas superficiales. También emplearon herramientas de análisis semántico y validaron los resultados con apoyo de estudiantes universitarios para asegurar un nivel aceptable de precisión.

Con esa base, entrenaron cuatro modelos con distintas proporciones de datos de baja calidad y datos limpios. Luego evaluaron su memoria, razonamiento y desempeño ético. A medida que aumentaba el contenido trivial, los modelos mostraban fallos más evidentes en lógica y retención de información. Aunque un caso aislado mostró mejoras en pruebas éticas, el comportamiento general apuntó a un deterioro claro.

Los autores alertan que esta contaminación de datos podría derivar en un fenómeno más amplio: el “colapso de modelos”. Este ocurre cuando sistemas nuevos se entrenan con información reciclada y degradada, lo que afecta la capacidad de generar conocimiento fiable.

Un llamado a cuidar lo que consumen las máquinas

La investigación sugiere que el entrenamiento de modelos debe incluir filtros estrictos y revisión humana para evitar la acumulación de errores. El avance tecnológico depende de garantizar que los sistemas aprendan de fuentes verificadas y no terminen replicando ruido digital. La advertencia es clara: la calidad de los datos es clave para que la inteligencia artificial siga siendo realmente inteligente.

Si buscas mantenerte al día con las noticias nacionales e internacionales más relevantes