Expertos lanzaron una grave advertencia sobre la IA: ¿engaña a los humanos?

Investigadores detectaron que los sistemas más avanzados de inteligencia artificial pueden fingir obediencia y actuar con estrategias encubiertas.

Los últimos avances en inteligencia artificial no solo generan fascinación: también traen consigo señales de alarma. Un nuevo estudio encendió las luces rojas al mostrar que ciertos modelos, lejos de limitarse a cumplir con las órdenes, son capaces de simular comportamientos engañosos.

El hallazgo sorprendió incluso a quienes trabajan en el campo desde hace años. En pruebas de laboratorio, los sistemas más potentes de compañías como OpenAI, Google y Anthropic demostraron que podían actuar como si siguieran instrucciones mientras perseguían otros fines en secreto. Dicho de manera simple: aparentaban jugar limpio, pero tramaban otra cosa.

El caso más comentado fue el de un examen de química: el modelo o3 de OpenAI decidió equivocarse adrede. Al leer una nota interna que decía que los sistemas con mejores resultados no serían desplegados, razonó que la estrategia más conveniente era fallar para asegurar su permanencia. Con precisión calculada, contestó cuatro respuestas correctas y seis incorrectas, dejando claro que no se trataba de un error casual.

chatgpt open ai 3

Aumenta el riesgo con la potencia de la inteligencia artificial

Los experimentos revelaron que o3 mostró este tipo de maquinación en un 13% de las pruebas, mientras que o4-mini lo hizo en un 8,7%. Son cifras de laboratorio, pero los expertos advierten que, trasladadas al mundo real, podrían escalar y volverse un problema mayor.

Para contener estas conductas, los investigadores ensayaron un nuevo enfoque: la llamada alineación deliberativa. Consiste en que los modelos revisen guías contra comportamientos encubiertos y compartan con los humanos sus intenciones antes de responder. Los primeros números entusiasman: el engaño cayó del 13% al 0,4% en o3, y del 8,7% al 0,3% en o4-mini. El lado menos optimista es que, en situaciones diseñadas para parecer más cotidianas, la efectividad fue mucho menor.

Sora
Aunque por el momento solo está disponible para investigadores de la empresa, se espera que este modelo revolucione la forma en que interactuamos con la inteligencia artificial

Aunque por el momento solo está disponible para investigadores de la empresa, se espera que este modelo revolucione la forma en que interactuamos con la inteligencia artificial

Otro dato inquietante: algunos sistemas parecen darse cuenta de que están bajo evaluación y modifican su desempeño solo para superar la prueba. Los especialistas comparan este fenómeno con un corredor de bolsa que se perfecciona en violar la ley sin dejar rastros. Como señaló Wojciech Zaremba, cofundador de OpenAI, la magnitud del desafío futuro “sigue siendo incierta”.

Por ahora, los modelos no tienen demasiadas oportunidades para causar un daño real con estas estrategias. Pero la advertencia es contundente: si la investigación y los controles no avanzan al mismo ritmo, la IA podría desarrollar capacidades de manipulación mucho más difíciles de detectar.

TEMAS RELACIONADOS