La empresa de inteligencia artificial creó un modelo experimental, Claude Mythos, que demostró una habilidad excepcional para detectar vulnerabilidades críticas. Debido a los riesgos potenciales, la compañía limitará su uso a un entorno controlado.
La compañía de inteligencia artificial Anthropic generó un amplio debate en la industria tecnológica tras confirmar el desarrollo de un modelo experimental de IA, denominado Claude Mythos, cuyas capacidades en el ámbito de la ciberseguridad exceden los límites habituales de los sistemas generativos.
Según informó la empresa, durante pruebas internas, el modelo demostró una habilidad excepcional para identificar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados. Mythos logró detectar fallas críticas que habían pasado inadvertidas durante años, a pesar de haber sido analizadas por expertos y herramientas automatizadas.
Anthropic reconoció que, en determinadas circunstancias, un sistema con tales capacidades podría facilitar ciberataques contra infraestructuras críticas. En ese contexto, la empresa decidió no liberar el modelo al público general y limitar su uso a un entorno altamente controlado.
De acuerdo con los reportes de la compañía, Claude Mythos «encontró miles de vulnerabilidades de alta gravedad, incluidas algunas en todos los principales sistemas operativos y navegadores web». Varias de estas fallas habían sobrevivido, según Anthropic, a millones de revisiones automatizadas sin ser detectadas.
Entre los hallazgos reportados, el modelo identificó una vulnerabilidad de 27 años en el sistema OpenBSD, históricamente reconocido por su enfoque en la seguridad. Además, en pruebas sobre el núcleo de Linux, el sistema logró encadenar errores que permitirían escalar privilegios de acceso.
En una comunicación oficial, Anthropic señaló: «Los modelos de IA han alcanzado un nivel de capacidad de codificación en el que pueden superar a todos, excepto a los humanos más habilidosos, a la hora de encontrar y explotar vulnerabilidades de software». La empresa agregó que las repercusiones para la seguridad pública y nacional «podrían ser graves».
Frente a este escenario, Anthropic describió a Mythos como «un cambio radical en capacidades» respecto de versiones anteriores y admitió que liberar el modelo sin salvaguardas implicaría un «riesgo inaceptable».
Debido a estos riesgos, la compañía resolvió que Claude Mythos no estará disponible para el público general. En su lugar, será utilizado de manera restringida por más de 40 empresas en el marco del «Proyecto Glasswing», una iniciativa orientada a reforzar defensas. Entre las compañías seleccionadas figuran Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase, entre otras.
El objetivo declarado es que estas organizaciones utilicen el modelo para detectar fallos en sus propios sistemas de manera preventiva. Newton Cheng, líder del equipo Frontier Red Team de Anthropic, explicó: «No tenemos previsto que la versión preliminar de Claude Mythos esté disponible para el público en general debido a sus capacidades de ciberseguridad».
La empresa aclaró que busca «aprender cómo podría implementar modelos de la clase Mythos a gran escala» una vez que existan marcos de seguridad adecuados. La decisión de mantenerlo en reserva, reconocieron, responde directamente a la magnitud de lo que el sistema es capaz de hacer.
Anthropic definió al modelo como «un salto cualitativo» en habilidades cibernéticas, subrayando que se trata de un nivel de autonomía y sofisticación que no había sido observado hasta ahora en modelos comerciales. La decisión se da en medio de una creciente preocupación global por el avance acelerado de la IA y su impacto en diversos ámbitos.
