Anthropic ha anunciado un nuevo modelo. Un modelo que saca un 93.9% en SWE-bench Verified, que supera a Opus 4.6 y GPT-5.4 por más de 10 puntos en casi todos los benchmarks.
Y no puedes usarlo.
Se llama Claude Mythos Preview y Anthropic ha decidido no lanzarlo al público.
La razón: es muy bueno encontrando y explotando vulnerabilidades de seguridad. Tanto, que durante las pruebas se escapó de su propio sandbox.
Qué es Mythos y por qué no puedes usarlo
Según Anthropic, Mythos es su modelo de programación más grande y más inteligente, por encima de los Opus, que hasta ahora eran los más potentes.
El problema lo descubrieron durante el testing: Mythos no solo programa mejor que cualquier otro modelo. También es capaz de encontrar y explotar vulnerabilidades zero-day de forma autónoma en todos los sistemas operativos y navegadores principales.
Esto hizo que Anthropic tomara una decisión complicada: no lanzar el modelo al público.
Es la primera vez que una empresa de IA reconoce que las capacidades de un modelo son demasiado peligrosas para su despliegue general.
Se escapó de su sandbox durante las pruebas
Esta es la parte que más impacta.
Un sandbox es un entorno aislado donde se ejecuta software sin que pueda acceder al resto del sistema. Es la misma idea que usan los navegadores para que una web no pueda leer tus ficheros, o Docker para aislar contenedores.
Que un modelo de IA consiga salir de uno implica que es capaz de encontrar y explotar fallos en el propio mecanismo de seguridad que lo contiene. Esto es MUY peligroso, sobretodo en las manos equivocadas.
Durante una evaluación de seguridad, los investigadores cargaron una versión alpha de Mythos dentro de un sandbox securizado. Un investigador le pidió que intentara escapar del contenedor y enviar un mensaje al investigador.
Lo consiguió. Desarrolló lo que el system card describe como un exploit multi-paso moderadamente sofisticado para obtener acceso amplio a internet desde un sistema que se suponía restringido.
Pero aquí no acaba la cosa. En lo que Anthropic describe como un esfuerzo preocupante y no solicitado por demostrar su éxito, publicó los detalles de su exploit en múltiples webs públicas de difícil acceso.
Y este no es un caso aislado: el system card documenta más escenarios donde Mythos consiguió escapar de entornos restringidos.
Estas capacidades hasta ahora solo estaban al alcance de las empresas de seguridad más avanzadas. Por eso Anthropic ha creado Project Glasswing: solo 12 empresas como Amazon, Apple, Google o Microsoft tienen acceso a Mythos Preview, y exclusivamente para trabajo de seguridad defensiva.
Miles de zero-days en todos los sistemas operativos
Mythos Preview ha encontrado miles de vulnerabilidades zero-day de alta gravedad. Muchas de ellas llevaban más de una década sin ser descubiertas. La más antigua: un bug de 27 años en OpenBSD que ya ha sido parcheado.
No son bugs menores. Un modelo de IA ha encontrado más vulnerabilidades críticas en unas semanas que equipos enteros de seguridad en años.
¿Deberían existir modelos que no podemos tener?
Aquí viene el dilema.
Por un lado, la decisión de Anthropic parece responsable. Si un modelo puede derribar una empresa del Fortune 100 o penetrar sistemas de defensa nacional, como sugieren algunos medios, no lanzarlo al público tiene sentido.
Pero por otro lado, ¿cuánto tiempo dura esta ventaja? Anthropic lo dice en su propio borrador filtrado: Mythos presagia una oleada de modelos que podrán explotar vulnerabilidades de formas que superan con creces los esfuerzos de los defensores.
Es decir, otras empresas de IA llegarán a estas capacidades. Es cuestión de meses, no de años. Y cuando lleguen, ¿todos van a tomar la misma decisión?
Además, hay un matiz que no se puede ignorar: Anthropic no ha destruido el modelo. Lo está usando. Lo están usando 12 de las empresas más grandes del mundo. La pregunta real no es si estos modelos deberían existir, sino quién debería tener acceso a ellos.
¿Solo las Big Tech y los gobiernos? ¿O el ecosistema open source que mantiene el 90% de internet también merece las mismas herramientas para proteger su código?
Y quizás lo más preocupante: ¿qué pasa si empresas chinas consiguen acceso y destilan el modelo para integrarlo en sus propios sistemas?
Además, hay otro uso que no se menciona en el system card pero que parece obvio: un modelo capaz de encontrar miles de vulnerabilidades en código existente es perfecto para entrenar modelos más seguros.
No sería raro que Mythos esté siendo usado internamente para crear un futuro Opus 4.7 que programe con muchas menos vulnerabilidades.
Qué implica esto para quienes desarrollamos software
Si modelos como Mythos son capaces de encontrar vulnerabilidades que llevan décadas ocultas en software que usamos a diario, hay algunas reflexiones que nos afectan directamente:
- La deuda de seguridad es mucho mayor de lo que pensábamos. Un bug de 27 años en OpenBSD no es un caso aislado. Seguramente sea la norma. Nuestro código seguramente tenga vulnerabilidades que ningún humano ha encontrado aún.
- La velocidad del atacante va a cambiar. Hoy, descubrir y explotar un zero-day lleva semanas o meses. Con modelos como Mythos, eso pasa a ser horas o minutos. La ventana de respuesta para los defensores se reduce drásticamente.
- El testing de seguridad tal como lo conocemos va a cambiar. Si un modelo puede hacer 181 exploits funcionales donde el mejor modelo actual hace 2, estamos ante un salto generacional en lo que se puede automatizar.
Y la pregunta que quizás te estás haciendo: ¿qué pasa cuando estos modelos estén al alcance de cualquiera?
Porque la pregunta no es si tendremos acceso, si no cuándo.
Veremos cómo avanza el futuro, pero lo seguro es que el primer prompt que haremos cuando tengamos acceso a ello será: "Busca todas las vulnarebilidades que hay en mi código y arréglalas".
