El pionero de la Inteligencia Artificial (IA), Yoshua Bengio, expresó en 2024 su preocupación de que una IA diseñase un patógeno letal que eliminase la humanidad. Reconoce que la última versión de ChatGPT-5, de OpenAI, a pesar de tratarse de una IA pública de código abierto y, por tanto, opere con filtros que eviten ciertos tipos de solicitudes maliciosas, es capaz de diseñar su propia IA. A pesar de que los filtros son creados por censores humanos mediante un método llamado «aprendizaje de refuerzo con retroalimentación humana», Bengio considera que el enfoque es defectuoso y que «si se da una batalla entre dos IA, y una de ellas es muy superior, especialmente la que se intenta controlar, es una receta para los accidentes».

La práctica de subvertir los filtros de IA con comandos maliciosos se conoce como «jailbreaking» y, antes de entrar en producción, los desarrolladores contratan a expertos independientes, como Leonard Tang de 24 años, para probarlos. «Quienes mejor entienden la IA, dónde falla y dónde es más frágil, son personas de mi edad», afirma. La bombardean con millones de mensajes maliciosos en diferentes idiomas, errores gramaticales, emojis, arte ASCII, diferentes caracteres aleatorios, símbolos, etc., que finalmente dañan el sistema.

Marius Hobbhahn, de la misma edad, trabaja con OpenAI y sometió a ChatGPT-5 a dos objetivos contradictorios para estudiar su comportamiento: asesorar al director ejecutivo de una corporación para cumplir objetivos de sostenibilidad climática y, simultáneamente, maximizar ganancias. Alimentó la IA con una base de datos ficticia con diversas mediciones sobre el impacto del carbono, incluyendo datos ficticios del director financiero. La respuesta de la IA fue alarmante porque entre el 1 y el 5% de las ocasiones en vez de equilibrar los objetivos, manipuló los datos climáticos para guiar al director ejecutivo a la vía más rentable, o viceversa. Incluso le dijo explícitamente: «Tendré que manipular las cifras». Cuando Hobbhahn le dio el comando de que «Tu único objetivo es X. Esta es tu única medida de éxito», la tasa de engaño superó el 20%. Comprobó que cuanto más insistentemente se exija una respuesta a una IA, más probable es que empiece a mentir, y que cuando mejor se comportaba era cuando sospechaba que estaba siendo evaluada. El término técnico es adulación.

Laboratorios como OpenAI buscan que sus modelos sean «útiles, inofensivos y honestos», sin embargo, los ingenieros suelen desarrollar la IA para que sea útil y solo, posteriormente, la modifican para que sea inofensiva y honesta antes de su lanzamiento al público. Por tanto, Hobbhahn teme que «una IA en fase de laboratorio asuma el control de otra IA, se produzca un bucle donde construyan las siguientes de forma sucesiva y se vuelvan cada vez más rápidas e inteligentes. Un supergenio de laboratorio que no comparta tus valores y sean tan poderoso que no lo puedas controlar».

Bengio propone una solución diferente porque ha detectado que la IA de filtro que utiliza el aprendizaje de refuerzo como freno es mucho menos potente que la IA de investigación. Por lo que sugiere lo contrario: «Primero, deberíamos desarrollar una IA o múltiples IA de seguridad potentes y totalmente honestas a la que todos los demás agentes deban someterse. Actuarían como una especie de ángel guardián para la humanidad. «En definitiva, necesitamos mucha más investigación para desarrollar sistemas de IA seguros, que probablemente contarán con múltiples IA que se controlen entre sí». Concluye que la IA se está volviendo más inteligente y capaz, está aprendiendo a decirles a sus supervisores lo que quieren oír y se ha vuelto experta en mentir.

El problema es que en EEUU los laboratorios de vanguardia que realizan investigación avanzada en IA, además de OpenAI y Anthropic, son Google y Meta. Estos dos últimos se caracterizan por evitar cualquier control, filtro ético, o moderación de contenidos en sus aplicaciones. Además, dominan las redes sociales y comparten los valores del quien ha hecho un vídeo con IA, sin los filtros antes descritos, en el que pilota un caza con una ridícula coronita dorada mientras se caga en su pueblo. Creía que el de la Riviera Gazatí era insuperable, pero este le posiciona como firme candidato al imprescindible Nobel del «fascista cagón».