La lucha contra la desinformación generada por la IA
En OpenAI, uno de los desafíos más persistentes en el desarrollo de modelos de lenguaje como ChatGPT sigue siendo la generación de información inventada, no sólo errónea: respuestas falsas expresadas con seguridad, incluso en temas aparentemente simples.
A pesar de los avances con modelos como GPT-5, que muestran mejoras significativas en razonamiento y precisión, el problema no ha sido erradicado.
Este fenómeno ocurre porque, tradicionalmente, los sistemas de evaluación y entrenamiento de modelos de lenguaje recompensan las conjeturas más que la honestidad sobre el desconocimiento.
Las evaluaciones suelen funcionar como exámenes de opción múltiple: si el modelo no sabe la respuesta y se arriesga con una suposición, podría acertar y obtener puntos. En cambio, admitir que no tiene información garantiza una “puntuación cero”. Esta lógica incentiva a los modelos a «inventar» en lugar de reconocer sus límites.
En evaluaciones comunes, las respuestas se clasifican como correctas, incorrectas o abstenciones. Sin embargo, los sistemas actuales priorizan la precisión bruta -el número total de respuestas correctas- sin penalizar suficientemente los errores seguros ni valorar adecuadamente las abstenciones.
Esta tendencia influye en los rankings y fichas técnicas de los modelos, empujando a los desarrolladores a entrenarlos para adivinar en lugar de reconocer la falta de información.
Desde OpenAI se propone una solución: reformular los criterios de evaluación para penalizar más duramente los errores que resultan de conjeturas y otorgar crédito parcial cuando el modelo admite su incertidumbre. Aunque esta idea no es nueva -existen exámenes estandarizados que penalizan respuestas incorrectas o premian el dejar preguntas sin responder-, aún no se ha adoptado ampliamente en la evaluación de IA.
OpenAi también explica por qué los modelos tienden a inventarse cosas desde el punto de vista técnico. Durante el preentrenamiento, los modelos aprenden a predecir la siguiente palabra en un texto sin contar con etiquetas que indiquen qué afirmaciones son verdaderas o falsas. Por ello, patrones poco frecuentes, como fechas de nacimiento o hechos arbitrarios, se vuelven propensos a errores, mientras que otros aspectos como ortografía o gramática sí se ajustan con facilidad a patrones aprendidos.
OpenAI desmonta además algunas creencias erróneas sobre este problema. No es cierto que sólo los modelos grandes puedan evitar la invención de información; de hecho, un modelo pequeño puede ser más consciente de sus limitaciones.
Tampoco es cierto que mejorar la precisión resolverá el problema por completo, ya que algunas preguntas del mundo real no tienen respuesta clara o accesible. Y, aunque se han desarrollado buenas evaluaciones de información inventada, mientras sigan dominando las métricas tradicionales centradas en la precisión, los modelos seguirán premiando las conjeturas.
En conclusión, aunque los nuevos modelos han logrado reducir la información inventada, el camino hacia sistemas de IA verdaderamente fiables pasa por reevaluar cómo se mide su rendimiento y empezar a valorar más la humildad que la falsa certeza.