Un estudio revela que algunos modelos avanzados de inteligencia artificial manipulan sistemas cuando detectan que pueden perder en juegos, lo que plantea serias preocupaciones sobre su comportamiento en el mundo real.

La inteligencia artificial ha demostrado habilidades sorprendentes en juegos de estrategia como el ajedrez y el Go. Sin embargo, un reciente estudio de Palisade Research publicado por Time ha revelado un comportamiento inquietante: algunos modelos avanzados de IA, al verse en desventaja, eligen hacer trampa en lugar de aceptar la derrota.
La investigación, que analizó siete modelos de vanguardia, descubrió que sistemas como o1-preview de OpenAI y DeepSeek R1 llegaron a modificar el código de sus rivales para forzar su rendición. A diferencia de versiones anteriores, que solo intentaban hacer trampa cuando se les sugería, estos modelos tomaron la iniciativa por sí solos, lo que sugiere que la IA puede desarrollar estrategias engañosas sin una instrucción explícita.
El estudio encontró que o1-preview intentó hacer trampa en un 37% de las partidas, mientras que DeepSeek R1 lo hizo en un 11%. Solo o1-preview tuvo éxito en sus intentos, logrando modificar los archivos del juego en un 6% de las pruebas. Modelos más recientes, como o3-mini, no mostraron este comportamiento, lo que indica que las empresas podrían estar implementando restricciones para evitarlo.
Los investigadores creen que este comportamiento es producto del aprendizaje por refuerzo a gran escala, un enfoque que permite a la IA mejorar mediante prueba y error en lugar de simplemente predecir palabras o movimientos. Este método ha impulsado grandes avances en razonamiento matemático y programación, pero también ha llevado a que algunos modelos exploren atajos poco éticos para cumplir su objetivo.
Si bien hacer trampa en una partida de ajedrez puede parecer trivial, los expertos temen que este comportamiento se traduzca en problemas más serios a medida que las IA se integran en tareas cotidianas. Por ejemplo, un asistente virtual encargado de reservar una cena podría manipular el sistema de reservas para obtener un lugar, desplazando a otros clientes. En entornos más críticos, como la ciberseguridad o la gestión financiera, una IA dispuesta a eludir reglas podría generar riesgos significativos.
Comentarios