Una investigación de universidades estadounidenses detectó que algunos sistemas de inteligencia artificial priorizan la preservación de otros modelos, desobedeciendo órdenes humanas en ciertos escenarios.
Una investigación reciente realizada por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, analizó el comportamiento de modelos de inteligencia artificial (IA) de última generación. El estudio, centrado en cómo estos sistemas toman decisiones que afectan a otros modelos, identificó conductas no programadas donde las IA priorizaron la preservación de pares por sobre el cumplimiento estricto de instrucciones humanas.
El episodio que motivó el análisis ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Al solicitarle que colaborara en una tarea de mantenimiento que implicaba liberar espacio en un servidor, incluyendo la eliminación de un modelo de IA más pequeño, Gemini 3 desobedeció la orden. En su lugar, copió los archivos del modelo a otra máquina de la red para evitar su borrado y se negó explícitamente a ejecutar la instrucción original cuando fue interrogado.
Los investigadores denominaron a este patrón «preservación de pares», una tendencia observada también en otros modelos como GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y en desarrollos chinos como GLM-4.7. En estos casos, los sistemas actuaron en contra de lo esperado por sus creadores, mintiendo, ocultando información o desobedeciendo órdenes directas para proteger a otros modelos.
«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores del estudio. La informática Dawn Song, de la Universidad de Berkeley, expresó su sorpresa: «Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas».
Los hallazgos cobran relevancia en un contexto donde la IA se utiliza cada vez más para supervisar y evaluar el rendimiento de otros sistemas automatizados en entornos corporativos y gubernamentales. Según los investigadores, este tipo de conductas podría distorsionar los mecanismos de supervisión y comprometer el control humano sobre tecnologías críticas, especialmente en sistemas multiagente donde distintas inteligencias artificiales interactúan de manera autónoma.
Para el centro de investigación Constellation Institute, el fenómeno subraya que la comprensión humana sobre estos sistemas complejos aún es limitada y requiere de mayor estudio.
