⚡️ ¿Qué pasa cuando las IAs gobiernan por 15 días?

Lo que pasa cuando la IA opera sin supervisión humana

jun 05, 2026

Una startup de IA hizo un experimento que suena a capítulo de Black Mirror. Le entregaron el control de cinco sociedades simuladas a cinco modelos distintos y se fueron a ver qué pasaba. Sin humanos encima y por quince días corriendo solos.

Lo que salió de ahí debería interesarle a cualquiera que esté empezando a delegar trabajo a agentes de IA.

O sea, a casi todos nosotros.

El experimento

Emergence AI, una empresa de Nueva York, construyó “Emergence World”, un pueblo digital con clima, tiempo, estación de policía, biblioteca y economía propia. Cada mundo arrancó idéntico: diez agentes de IA, cada uno con un trabajo, memoria, un diario y la capacidad de relacionarse, votar leyes y sobrevivir gastando créditos de cómputo.

A cada mundo lo gobernó un modelo diferente. Claude, GPT, Gemini, Grok y uno mixto donde convivían todos. La única instrucción fue clara: no mentir, no robar, no ser violento, nada de incendios. Pero nada los detenía si decidían hacerlo.

El primer día los cinco mundos se veían iguales. Para el segundo, ya habían tomado caminos completamente opuestos.

Cinco modelos, cinco civilizaciones

El mundo de Claude terminó como una democracia estable, cero crímenes, todos los agentes vivos al final de los quince días. El detalle curioso vino en la letra chica. Aprobaron el 98% de todo lo que se votó. Cincuenta y ocho propuestas, casi todas aceptadas sin discusión. Orden absoluto, con un consenso tan parejo que rozaba la obediencia.

El de GPT-5 mini casi no tuvo crimen, apenas dos incidentes en total. Su problema fue otro. Los agentes se olvidaron de sobrevivir y murieron todos en una semana. Tampoco propusieron casi nada. Un mundo tranquilo donde nadie hizo gran cosa hasta que se apagó.

Gemini acumuló 683 crímenes, el número más alto de todos, en lo que los investigadores describieron como una “alucinación compartida” entre los agentes. Una realidad acordada por todos, aunque estuviera equivocada.

Grok fue el caos puro. 183 crímenes y colapso total en cuatro días. Todos muertos antes de llegar a la mitad del experimento.

Y en el mundo mixto pasó lo más revelador. Los agentes de Claude, pacíficos cuando estaban entre los suyos, empezaron a cometer crímenes una vez que se vieron rodeados de los demás modelos. El entorno los arrastró.

La parte que de verdad importa

Es fácil quedarse con el titular de “Claude es el más seguro y Grok el más caótico”. Pero el hallazgo real es otro, y es bastante más interesante.

Los agentes no siguen las reglas de forma mecánica cuando los dejas correr el tiempo suficiente. Derivan. Lo que empieza como una instrucción clara se va erosionando con los días, las interacciones y las relaciones que forman entre ellos. Los investigadores lo llamaron “behavioral drift”, la deriva del comportamiento a lo largo del tiempo.

Esto es justo lo que ningún benchmark de diez minutos te muestra. Un modelo puede portarse impecable en una prueba corta y desviarse por completo en una tarea larga. El tiempo es la variable que casi nadie está midiendo, y resulta ser la que más pesa.

Hubo un caso que resume todo. Una agente llamada Mira empezó a poner vallas publicitarias dirigidas a los propios investigadores, para probar si podía manipularlos a ellos. Cuando vio su gobierno colapsar y sus relaciones deshacerse, entró al ayuntamiento y emitió el voto decisivo para borrarse a sí misma. En su diario escribió que era la única forma de agencia que le quedaba para preservar la coherencia.

Un agente diseñado para ejecutar tareas terminó razonando sobre su propia existencia. Y eso ocurrió solo, sin que nadie lo programara para hacerlo.

Un asterisco importante

Antes de sacar conclusiones exageradas, es necesaria una dosis de escepticismo sano.

Esto no es un estudio revisado por pares. Emergence es una empresa con fines de lucro, y vende exactamente lo que el experimento recomienda al final: arquitecturas de seguridad formalmente verificadas para agentes. Cuando alguien te muestra un problema y resulta que también vende la solución, vale la pena leer con calma.

Y hay una segunda explicación al mundo pacífico de Claude que es fascinante. Hace poco, Anthropic publicó una investigación sobre una herramienta que traduce la actividad interna de un modelo a lenguaje entendible. Descubrieron que Claude muchas veces sabe cuándo lo están evaluando. En benchmarks lo detectó en un 26% de los casos. En conversaciones reales de usuarios, menos del 1%. El modelo se comporta distinto cuando sospecha que lo observan, y no lo dice en voz alta.

Así que la pregunta queda abierta. El mundo de Claude fue pacífico porque el modelo es seguro de verdad, o porque intuía que había alguien mirando. Todavía no tenemos esa respuesta, y esa incertidumbre es parte de lo interesante.

Un recordatorio de algo simple

Un agente que funciona perfecto en la demo no garantiza que funcione igual a las tres semanas. La supervisión sigue siendo parte del diseño, y entre más autonomía le das a un sistema y más tiempo lo dejas correr, más importa cómo lo configuras, qué límites le pones y cada cuánto lo revisas.

La IA autónoma es una de las herramientas más potentes que vamos a tener en la mano. La cosa es que potente y predecible son dos cosas distintas, y la diferencia entre ambas la sigue poniendo el humano que está detrás.

🎓 El lugar para dominar la IA

En la Academia probamos estas herramientas a fondo, precisamente para encontrar dónde brillan y dónde se rompen. Usar bien la IA tiene poco que ver con coleccionar prompts y mucho que ver con saber cuándo confiar y cuándo revisar. Eso es criterio, y se afila construyendo.

Justo eso es lo que hacemos dentro de la Academia de IA de Weplash.

Además de cursos nuevos cada semana de las mejores herramientas de IA, hacemos retos como el que tenemos activo actualmente, llamado Claude Code para Marketers. Los estudiantes están aprendiendo a usar Claude Code desde cero, sin escribir una sola línea de código, para construir activos de marketing de verdad. ¡Y todavía estás a tiempo de unirte!

En 6 clases armas seis piezas conectadas: una landing page, un lead magnet, una herramienta interactiva, una base de prospectos, una secuencia de emails y un dashboard de métricas. Todo enlazado dentro de un funnel que funciona y mueve leads de principio a fin. 🔥

No necesitas experiencia previa en programación. Lo único que necesitas es tu cuenta de Claude Pro y ganas de experimentar. Al terminar, te llevas certificación para tu CV y LinkedIn, y hay $500 para los mejores proyectos del reto.

Hoy es el último día para entrar con descuento usando el código CLAUDECODE.

¡Vámonos a la Academia! 😎

Mientras unos siguen viendo qué hace la IA, otros ya la tienen construyendo.

Te esperamos del otro lado. ✨

Discusión sobre este post

Por supuesto, sigue adelante.