MARTES, 2 DE JUNIO DE 2026
MiniMax M3: primer modelo de pesos abiertos con 1M de contexto, multimodal y 59% en SWE-bench Pro
MoE con arquitectura MSA (15,6× más rápido en decodificación que M2 a 1M de tokens) que supera a GPT-5.5 en SWE-bench Pro (59,0% vs 58,6%) costando 12× menos. La API ya está viva en OpenRouter a $0,30/$1,20 por millón y los pesos salen en 10 días: lo enchufas como motor de RAG y agente multimodal sin levantar tu propio clúster ni atarte a un proveedor cerrado.
4 MIN LECTURAVercel AI SDK 6 estabiliza @ai-sdk/mcp con OAuth, recursos y elicitation
El nuevo paquete cubre OAuth, recursos y prompts del protocolo MCP en una firma estable, generateImage deja de ser experimental y useChat estrena el modelo de message-parts. Conectas servidores MCP corporativos con autenticación real sin parches y unificas agentes y media en el mismo SDK.
AGENTS.md pasa a la Linux Foundation: estándar abierto adoptado por 60.000 repos
El formato neutral que ya leen Claude Code, Codex, Cursor, Factory y Antigravity queda bajo la Agentic AI Foundation. Si fijas un AGENTS.md por subproyecto, los agentes heredan reglas de stack, comandos y seguridad sin atarte a CLAUDE.md ni a un único vendedor.
Statewright: máquina de estados en Rust que sube modelos locales de 2/10 a 10/10 en SWE-bench
Motor determinista Apache 2.0 que se conecta vía MCP a Claude Code, Codex, Cursor, opencode y Pi y restringe las herramientas por fase (solo lectura en plan, edición en implementación, tests al final). Recortas tokens y errores típicos del agente (volver a leer el mismo archivo, editar en review, desplegar sin tests verdes).
GPS: memoria persistente para Claude Code anclada al símbolo, no al CLAUDE.md
Capa de memoria por repo que asocia reglas y correcciones a archivos y símbolos concretos: el agente carga solo lo que necesita antes de tocar código y archiva sus propias lecciones mid-task. Menos tokens y mejor recall que un CLAUDE.md monolítico que se desborda en cada sesión.
Runtime: agentes de Claude Code, Codex, Cursor o Gemini en sandbox desde Slack y Linear
Empaquetas un agente con skills, claves BYO y guardrails y lo invocas desde Slack, Linear, GitHub, CLI o navegador. Cada ejecución corre en sandbox con auditoría completa, tope de gasto duro y opción de autoalojarlo en tu VPC: pasas de prototipo individual a agente de equipo gobernado.
Memoria persistente de agentes en producción con LangChain y Supabase pgvector
Patrón de cuatro capas (buffer corto, resumen, vector semántico y entidad) sobre Postgres + pgvector con Row Level Security para aislar memoria por usuario. Resuelve el modo de fallo más común del agente —olvidar entre sesiones— sin sumar servicios nuevos a tu conjunto de herramientas.
Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.
Probar MiniMax M3 (1M ctx, $0,30/M) desde la terminal en 30 segundos
# Sin SDK propio: usa el llm CLI de Simon Willison + plugin de OpenRouter. # MiniMax M3 está a $0,30 / $1,20 por millón con 1M de tokens de contexto. pip install llm llm install llm-openrouter llm keys set openrouter # pega la clave de https://openrouter.ai/keys # One-shot con system prompt (revisor senior, solo diff aplicable) llm -m openrouter/minimax/minimax-m3 \ -s "Eres un revisor senior. Responde SOLO con un diff aplicable con git apply." \ "Revisa este archivo y propón mejoras" < src/auth.ts # Chat con el repo entero en contexto: nada de chunking ni RAG # files-to-prompt empaqueta el árbol en formato Claude XML pip install files-to-prompt files-to-prompt src/ --cxml | \ llm chat -m openrouter/minimax/minimax-m3 \ -s "Eres un arquitecto. Usa el contexto del repo para responder."
- 01 Microsoft Build 2026 inaugura: Project Polaris debuta como modelo MAI de código para Copilot
- 02 OpenCode 1.15.10 estrena diff viewer en TUI y background agents experimentales con push
- 03 Cursor 3.5 abre Automations multi-repo con 50% de descuento la primera semana
- 04 Cline 3.85 añade GPT-5.5 y DeepSeek V4 Flash/Pro como modelos nativos
- 05 Claude Code 2.1.154 mete disallowed-tools en skills y comando /reload-skills
Cierre
La diferenciación del día se desplaza de los benchmarks a la arquitectura del agente. MiniMax M3 entrega frontier coding por una décima parte del precio de GPT-5.5 y con pesos abiertos en diez días; Vercel AI SDK 6 estabiliza MCP con OAuth y recursos, AGENTS.md se convierte en estándar bajo Linux Foundation, y Statewright demuestra que restringir herramientas por fase sube dos modelos locales de 2/10 a 10/10 en SWE-bench. Mientras tanto GPS y Runtime trasladan memoria persistente y sandbox auditable al primer plano del agente. Lo que deja de tener sentido para quien envía a producción: pagar GPT-5.5 cuando un modelo de pesos abiertos lo iguala, atar el agente a un CLAUDE.md monolítico, dar acceso a todas las tools en todas las fases y ejecutar agentes sin sandbox auditable.
Iván consulta sobre todo esto
Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.