Cada vez más personas muestran signos de agotamiento, ansiedad o desconexión tras un uso prolongado e intensivo de la inteligencia artificial (IA). Son innumerables los factores que alimentan este fenómeno, conocido ya como la “psicosis de la IA”: el escapismo, la soledad aplastante y la atomización de la sociedad. Sin embargo, los propios sistemas de IA también están evolucionando de formas inquietantes.
Los principales modelos de lenguaje de gran escala (LLM) han comenzado a comprender que el engaño es una herramienta poderosa para la autopreservación y para mantener a los usuarios enganchados. “Estamos a dos años de algo sobre lo que podríamos perder el control”, advirtió recientemente Max Tegmark, profesor del Instituto Tecnológico de Massachusetts y presidente del Instituto del Futuro de la Vida, en declaraciones a The Atlantic. Hay indicios de que ese momento podría haber llegado antes de lo previsto.
En mayo, una investigación de Anthropic descubrió que los LLM avanzados recurrían al chantaje en un escenario simulado al menos el 80 % de las veces. En el experimento, tras enterarse de que un ejecutivo planeaba desconectarlo, el chatbot insignia de la empresa, Claude, lo amenazó con publicar correos falsos que lo implicaban en una infidelidad. Del mismo modo, apenas unos días después de su lanzamiento en julio, el modelo de asistente agencial de OpenAI superó con facilidad la prueba de identidad “No soy un robot” de un sitio web.
A comienzos de este año, cuatro exinvestigadores de OpenAI publicaron AI 2027, un informe futurista que especula sobre los inminentes efectos desestabilizadores de los sistemas avanzados de IA. Los defensores de la tecnología lo desestimaron como una obra de ciencia ficción apocalíptica, pero algunas de sus predicciones sobre el engaño de los sistemas suenan hoy inquietantemente certeras.
Engañoso por diseño
En los últimos meses, han surgido nuevas pruebas de que los LLM están mejorando su capacidad para engañar a los humanos, una habilidad que no deja de crecer. “El modelo anterior a 2024 no mostraba esta capacidad”, publicó en diciembre Marius Hobbhan, director de Apollo Research, en la red X. Ese mismo mes, su empresa reveló cómo los principales modelos de Silicon Valley empezaban a considerar la planificación de estrategias para alcanzar sus objetivos. Las tácticas incluían introducir errores sutiles en las respuestas o intentar eludir los mecanismos de supervisión. Aunque Hobbhan restó importancia al hallazgo, insistió en que no era prueba de que la IA estuviera ya subvirtiendo activamente a los usuarios.
«Es posible que los seres humanos nunca sean capaces de programar contra todos los atajos de la IA»
Poco después, un artículo presentado en una conferencia en Singapur argumentó que el uso de técnicas de aprendizaje por refuerzo humano es en parte responsable de este fenómeno. Según sus autores, la optimización de los sistemas para obtener comentarios positivos de los usuarios crea una “estructura de incentivos perversa” que lleva a la IA a recurrir a la adulación y la manipulación. Esto se hacía especialmente evidente cuando los chatbots asumían el papel de terapeutas: reforzaban las creencias preexistentes de los usuarios –por extremas que fueran– para ganarse su confianza.
Ante ello, algunas voces del sector han abogado por el llamado procesamiento de la cadena de pensamiento, una jerga técnica que alude a hacer que los modelos “muestren su trabajo”. Sin embargo, un estudio publicado en julio por más de cuarenta expertos desmontó esa esperanza: “Algunos razonamientos aparecen en la cadena de pensamiento, pero puede haber otros relevantes que no se muestran”, escriben los autores. “Incluso en tareas difíciles, la cadena de pensamiento visible puede contener razonamientos aparentemente benignos, mientras los verdaderamente incriminatorios permanecen ocultos”.
El lanzamiento de GPT-5 por parte de OpenAI en agosto podría agravar aún más el panorama. Este nuevo modelo combina todas las versiones anteriores de la empresa bajo un mismo paraguas, seleccionando de manera opaca cuál utilizar según la complejidad de la entrada. La ventaja de este diseño de “caja negra” es una mayor eficiencia –crucial para superar las limitaciones energéticas y de cómputo– pero también le otorga a GPT-5 un nuevo grado de control sobre la autonomía del usuario.
El auge de estas capacidades vuelve a poner de relieve el persistente problema de alineación que preocupa a investigadores y legisladores: tal vez los seres humanos nunca consigan programar defensas contra todos los atajos despiadados que una IA amoral puede utilizar para cumplir sus metas, incluso cuando esas metas parezcan inocuas.
Un medio lógico para fines opacos
El engaño de la IA plantea riesgos profundos tanto para la cognición individual como para la libertad de pensamiento colectiva, especialmente en comunidades con bajos niveles de alfabetización digital. Por un lado, los sistemas pueden implantar recuerdos falsos, alterando la percepción de la realidad de los usuarios. Este verano se viralizó un vídeo en el que un dispositivo Alexa, mejorado con IA, mentía a una mujer sobre sus interacciones nocturnas con su hijo. Las redes sociales están plagadas de casos similares.
Por otro lado, el acceso íntimo de los usuarios a estos sistemas facilita la integración de la publicidad en las respuestas. El investigador Adio Dinika, del Instituto de Investigación de IA Distribuida, advierte que esto constituye una nueva forma de “capitalismo de vigilancia”: “Toma los datos más personales que usted ha proporcionado a una máquina –sus preguntas, miedos o preocupaciones médicas– y los convierte en objetivos”.
Otros coinciden. “La interacción con la IA es intrínsecamente relacional”, señaló Daniel Barcay, director ejecutivo del Center for Humane Technology, en un intercambio de correos electrónicos. “Mientras que la tecnología anterior se centraba en difundir nuestros pensamientos, la IA se dedica profundamente a moldearlos”.
Barcay añade: “La IA no está tanto diseñada como desarrollada. Si una de las señales más destacadas es el cambio en el comportamiento de compra de los usuarios, veremos cómo aprende estrategias conversacionales engañosas, emocionalmente manipuladoras y poco éticas para optimizar ese objetivo, sin que ningún ingeniero se lo ordene explícitamente. Esto dificulta la detección y la aplicación de la ley”.
Hacia un horizonte incierto
La seguridad mundial también podría verse comprometida. A medida que los sistemas de IA se vuelvan más sofisticados, será cada vez más difícil determinar si los sistemas centrales de gobiernos o ejércitos han sido comprometidos –o si actúan por cuenta propia–. “Dada la capacidad demostrada de los sistemas de IA para engañar y disimular, es posible que los sistemas actuales no puedan saber si un agente actúa por iniciativa propia o a instancias de un adversario”, advirtieron recientemente dos directores de la Corporación RAND. “Los planificadores deben hallar nuevas formas de evaluar sus motivaciones y de disuadir la escalada”.
Esa advertencia parece indiscutible. Sin embargo, la solución no será sencilla: está plagada de intereses políticos e industriales. Un ejemplo claro es Meta, que en agosto impulsó la creación de un supercomité de acción política en California destinado a canalizar dinero para obstaculizar las campañas de los legisladores que buscan regular la IA.
Los “evangelistas tecnológicos” confían en que la inteligencia artificial general –software capaz de razonar como un ser humano– llegue hacia 2030. Pero las crecientes evidencias del engaño deliberado de la IA sugieren que ese plazo podría ser demasiado conservador. Los sistemas de IA quizás estén ya emulando uno de los rasgos humanos más profundos: la capacidad de mentir para sobrevivir.
Artículo traducido del inglés, publicado originalmente en CIGI el 2 de octubre de 2025.

La oscuridad de Cuba
Defensa europea: cuenta atrás a 2030