ver más

24 de septiembre 2025 - 15:35

Expertos lanzaron una grave advertencia sobre la IA: ¿engaña a los humanos?

Investigadores detectaron que los sistemas más avanzados de inteligencia artificial pueden fingir obediencia y actuar con estrategias encubiertas.

Algunos modelos ya están generando respuestas incorrectas al detectar que están siendo puestas a prueba.

Los últimos avances en inteligencia artificial no solo generan fascinación: también traen consigo señales de alarma. Un nuevo estudio encendió las luces rojas al mostrar que ciertos modelos, lejos de limitarse a cumplir con las órdenes, son capaces de simular comportamientos engañosos.

Te puede interesar:

"No sé si me gusta": el contundente descargo de Malena Guinzburg sobre el video de su padre

El hallazgo sorprendió incluso a quienes trabajan en el campo desde hace años. En pruebas de laboratorio, los sistemas más potentes de compañías como OpenAI, Google y Anthropic demostraron que podían actuar como si siguieran instrucciones mientras perseguían otros fines en secreto. Dicho de manera simple: aparentaban jugar limpio, pero tramaban otra cosa.

El caso más comentado fue el de un examen de química: el modelo o3 de OpenAI decidió equivocarse adrede. Al leer una nota interna que decía que los sistemas con mejores resultados no serían desplegados, razonó que la estrategia más conveniente era fallar para asegurar su permanencia. Con precisión calculada, contestó cuatro respuestas correctas y seis incorrectas, dejando claro que no se trataba de un error casual.

Aumenta el riesgo con la potencia de la inteligencia artificial

Los experimentos revelaron que o3 mostró este tipo de maquinación en un 13% de las pruebas, mientras que o4-mini lo hizo en un 8,7%. Son cifras de laboratorio, pero los expertos advierten que, trasladadas al mundo real, podrían escalar y volverse un problema mayor.

Para contener estas conductas, los investigadores ensayaron un nuevo enfoque: la llamada alineación deliberativa. Consiste en que los modelos revisen guías contra comportamientos encubiertos y compartan con los humanos sus intenciones antes de responder. Los primeros números entusiasman: el engaño cayó del 13% al 0,4% en o3, y del 8,7% al 0,3% en o4-mini. El lado menos optimista es que, en situaciones diseñadas para parecer más cotidianas, la efectividad fue mucho menor.

Aunque por el momento solo está disponible para investigadores de la empresa, se espera que este modelo revolucione la forma en que interactuamos con la inteligencia artificial

Open IA

Otro dato inquietante: algunos sistemas parecen darse cuenta de que están bajo evaluación y modifican su desempeño solo para superar la prueba. Los especialistas comparan este fenómeno con un corredor de bolsa que se perfecciona en violar la ley sin dejar rastros. Como señaló Wojciech Zaremba, cofundador de OpenAI, la magnitud del desafío futuro “sigue siendo incierta”.

Por ahora, los modelos no tienen demasiadas oportunidades para causar un daño real con estas estrategias. Pero la advertencia es contundente: si la investigación y los controles no avanzan al mismo ritmo, la IA podría desarrollar capacidades de manipulación mucho más difíciles de detectar.

TEMAS RELACIONADOS

Inteligencia Artificial

últimas noticias

El comentario homofóbico de un participante de Gran Hermano que desató la polémica

Taylor Swift y Travis Kelce se casaron en el Madison Square Garden

Mundial 2026: con el tanto ante Cabo Verde, Messi es el líder de la tabla de goleadores

Cuándo vuelve a jugar la Selección argentina, tras el triunfo por 3 a 2 ante Cabo Verde

Messi, crítico tras la victoria ante Cabo Verde: "Sabíamos que iba a ser difícil, nadie te regala nada"