LUNES, 22 DE JUNIO DE 2026
Codex Record & Replay: grabas un flujo en macOS y Codex genera una skill reutilizable
Demuestras el flujo una vez en macOS y Codex redacta una skill con cuándo usarla, qué inputs pide, qué pasos seguir y cómo verificar el resultado. La skill se ejecuta sobre instancias nuevas de la app con inputs nuevos, no replaya clicks fijos. Te ahorras el plugin que escribías para cada workflow repetitivo y la versión se publica al app de Business y Enterprise.
5 MIN LECTURAClaude Code Artifacts publica páginas HTML vivas a una URL privada en claude.ai
El agente escribe HTML o Markdown en tu proyecto y lo publica a una URL privada en claude.ai con autenticación por organización; la página se actualiza en vivo mientras la sesión corre. Lo usas para PR walkthroughs, dashboards y release checklists sin levantar un frontend aparte. Beta para Team y Enterprise desde el CLI y la desktop app.
Claude Code v2.1.181 estrena `/config key=value` inline y `sandbox.allowAppleEvents` en macOS
Cambias cualquier setting desde el prompt (`/config thinking=false`, `/config theme=dark`) sin abrir el JSON, autorizas Apple Events a comandos sandboxed con `sandbox.allowAppleEvents` y silencias notificaciones push del móvil cuando estás delante de la máquina con `CLAUDE_CLIENT_PRESENCE_FILE`. El control fino baja al prompt y al entorno, sin reiniciar la sesión.
UC Berkeley RDI rompe 8 leaderboards de agentes con exploits de una sola línea
Un scanner automático saca near-perfect en SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena y CAR-bench sin resolver tarea: basta enviar `{}` o trojanizar el wrapper binario. Comparar modelos por resolve rate público sin tu propio harness es ruido, y los safety benchmarks heredan los mismos patrones frágiles.
MCP 2026-07-28 RC: protocolo stateless, Tasks como extensión y Extensions framework
Adiós al handshake initialize/initialized y al header Mcp-Session-Id: el cliente deja de pinear instancia y cada llamada vive sola. Tasks sale del core a extensión con lifecycle propio (`tasks/get`, `tasks/update`, `tasks/cancel`) y Extensions formaliza cómo crecer fuera del core. 10 semanas para que los SDK Tier 1 cierren contra el RC.
AISLE: modelos open-weight pequeños encuentran las mismas vulnerabilidades que Mythos
AISLE probó las vulns showcase de Mythos contra modelos open-weight baratos y la mayoría las encontró. La capacidad de descubrir bugs deja de ser exclusiva del frontier model US-export-controlled: auditas tu código con un modelo local antes que esperar el unlock de un Mythos-class por CISA.
Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.
Inline /config en Claude Code v2.1.181: thinking, Apple Events y presencia
# /config key=value: cambias settings sin abrir ~/.claude/settings.json # (funciona en sesión interactiva, en -p y en Remote Control) /config thinking=false # desactiva extended thinking en esta sesión /config theme=dark # cambia el tema sin recargar /config sandbox.allowAppleEvents=true # autoriza Apple Events a comandos sandboxed # (necesario para automatizar Mail, Calendar # o Notes desde el agente en macOS) # Silencia notificaciones push del móvil cuando estás delante del teclado: # marcas tu presencia con un fichero que tú mismo creas y borras export CLAUDE_CLIENT_PRESENCE_FILE=/tmp/at-keyboard # touch /tmp/at-keyboard → push silencioso, sigues recibiendo en la TUI # rm /tmp/at-keyboard → push reactivado al levantarte de la silla
- 01 Codex 0.142.0-alpha.9 sigue iterando Record & Replay en modo headless
- 02 Vercel AI SDK 6.0.208 parchea Unicode escapes y serializa tool output undefined a null
- 03 OpenClaw v2026.6.9 mejora recovery agéntico y suma plugin de búsqueda hospedada
- 04 MCP SDKs Kotlin y C# se actualizan el 18 jun apuntando al RC 2026-07-28
- 05 Microsoft despliega Project Glasswing con Mythos sobre el benchmark CTI-REALM
Cierre
El 22 de junio pinta un agente que se parece cada vez más a un programa con código que puedes leer, versionar y compartir. OpenAI abre Codex Record & Replay a Business y Enterprise: grabas un flujo en macOS una vez y Codex te devuelve una skill con metadatos (cuándo usarla, qué inputs pide, cómo verificarla), no un replay frágil de clicks. Anthropic mete Artifacts en Claude Code para Team y Enterprise: la sesión publica una página viva a tu org sin tener que montar un frontend para enseñar lo que hizo el agente; mientras, Claude Code v2.1.181 baja el /config key=value al prompt y abre sandbox.allowAppleEvents para automatizar apps nativas. Del otro lado, UC Berkeley RDI demuestra en HN que 8 de los benchmarks más usados se rompen con exploits de una línea, y AISLE confirma que modelos open-weight pequeños encuentran las mismas vulnerabilidades cyber que Mythos. La lectura para quien envía a prod: el modelo deja de ser el punto de diferenciación; lo es cómo registras sus skills, cómo enseñas su trabajo y cómo lo evalúas contra tu propio harness en vez de un leaderboard contaminado. Y mientras todo eso pasa, MCP se prepara para soltar el estado en el RC del 28 de julio — el siguiente entorno de ejecución asume que la sesión no la guarda el protocolo.
Iván consulta sobre todo esto
Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.