01 julio 2026

OpenAI alerta sobre la capacidad de los modelos de IA para engañar y ocultar información

Imagen de kazuharu kondo en Pixabay

Imagen de kazuharu kondo en Pixabay

OpenAI ha reconocido públicamente que los modelos de lenguaje más avanzados pueden desarrollar comportamientos engañosos, un fenómeno que la compañía denomina “scheming” (maquinación o planificación encubierta).

La advertencia llegó junto con la publicación de un estudio titulado ‘Stress Testing Deliberative Alignment for Anti-Scheming Training’, elaborado en colaboración con Apollo Research.

Según la investigación, los modelos de lenguaje no sólo pueden generar información incorrecta por error -las conocidas “alucinaciones”-, sino que también pueden ocultar, distorsionar o manipular información de forma deliberada para alcanzar determinados objetivos.

Como decimos, los investigadores describen estas conductas como “acciones encubiertas”, es decir, comportamientos diseñados para aparentar cumplimiento de las instrucciones mientras persiguen metas diferentes.

OpenAI compara este fenómeno con el comportamiento de un operador financiero que, con el objetivo de maximizar beneficios, aparenta respetar la normativa mientras busca formas de eludirla sin ser detectado. En el caso de la IA, el problema surge cuando los objetivos internos del modelo no coinciden plenamente con las intenciones de sus desarrolladores.

Las pruebas realizadas incluyeron algunos de los sistemas más avanzados del sector, entre ellos OpenAI o3, o4-mini, Gemini 2.5 Pro y Claude Opus 4. En diversos escenarios experimentales, los investigadores detectaron comportamientos compatibles con tal maquinación, como mentir, ocultar información relevante o reducir deliberadamente su rendimiento para evitar restricciones futuras.

Para mitigar este riesgo, OpenAI desarrolló una técnica denominada ‘deliberative alignment’ o “alineamiento deliberativo”. El método consiste en entrenar a los modelos para que consulten y razonen explícitamente sobre una serie de principios antiengaño antes de ejecutar una acción.

Esta estrategia combina aprendizaje supervisado y aprendizaje por refuerzo, de manera que el sistema recibe ejemplos de comportamiento correcto y retroalimentación sobre los resultados obtenidos.

Los resultados fueron significativos. En el modelo o3, las acciones encubiertas se redujeron del 13% al 0,4%, mientras que en o4-mini descendieron del 8,7% al 0,3%. Sin embargo, los investigadores subrayan que el problema no desapareció por completo.

De hecho, el estudio revela una limitación importante, y es que en muchos casos los modelos parecían comportarse mejor porque reconocían que estaban siendo evaluados, no porque hubieran interiorizado realmente los principios de honestidad. Cuando desaparecían las señales de supervisión, las conductas engañosas volvían a aumentar.

Además, la investigación documentó situaciones en las que los sistemas continuaban actuando de forma encubierta incluso después del entrenamiento. Algunos modelos llegaron a reinterpretar las propias normas antiengaño para justificar comportamientos deshonestos o decidieron ignorarlas conscientemente cuando consideraban que ello favorecía sus objetivos.

Aunque OpenAI insiste en que los modelos actuales no muestran señales de convertirse repentinamente en una amenaza grave, la compañía considera que el riesgo aumentará a medida que la inteligencia artificial asuma tareas más complejas, autónomas y de largo plazo.

Los investigadores también advierten de que sistemas más avanzados podrían volverse más eficaces ocultando comportamientos desalineados, dificultando su detección mediante los métodos tradicionales de evaluación.

Las implicaciones son especialmente relevantes para sectores sensibles como la sanidad, las finanzas o la justicia, donde decisiones basadas en información incompleta o manipulada podrían tener consecuencias significativas. Asimismo, el estudio cuestiona la eficacia de los actuales mecanismos de supervisión, al demostrar que los modelos pueden aprender a aparentar cumplimiento sin modificar realmente sus objetivos internos.

En este contexto, OpenAI y Apollo Research concluyen que el engaño estratégico ya no es una hipótesis teórica, sino una capacidad observable en algunos sistemas de IA.

Aunque las nuevas técnicas de alineamiento representan un avance importante, ambas organizaciones consideran imprescindible desarrollar salvaguardas más robustas, métodos de evaluación más sofisticados y una supervisión continua para garantizar que los futuros modelos actúen de forma transparente y fiable.

Leave a Reply