JUEVES, 4 DE JUNIO DE 2026
MAI-Code-1-Flash: MoE 137B con 256k de contexto en VS Code Copilot, Fireworks, Baseten y OpenRouter
MoE de 137B parámetros con ventana de 256k que aparece simultáneamente en el model picker de VS Code Copilot y como endpoint en Fireworks AI, Baseten y OpenRouter. Microsoft reporta hasta 60% menos tokens que competidores y mejor coste/rendimiento que Haiku 4.5: lo enchufas como motor de agente de código sin atarte a Anthropic ni a OpenAI.
4 MIN LECTURAGitHub Copilot SDK pasa a GA en Node, Python, Go, .NET, Rust y Java
El entorno de ejecución agéntico de Copilot (planificación, llamadas a herramientas, edits, streaming y multi-turno) ya se embebe en cualquier app desde npm, pip, go get, cargo o nuget. Sustituyes tu capa de orquestación propia y bajas el tiempo a un agente productivo de semanas a horas, con SLA de producción detrás.
JetBrains libera Mellum2: MoE 12B Apache 2.0 con 131k de contexto para triage y resumen barato
MoE de 12B con solo 2,5B activos por token, 64 expertos y 131k de contexto, bajo Apache 2.0 y con pesos en Hugging Face. Pensado como modelo rápido y barato para clasificar, enrutar y resumir delante de un frontier: recortas 70-90% del coste por petición sin perder las tareas duras.
Holo3.1: familia VLM 0.8B–35B Apache 2.0 para agentes computer-use locales en 12 GB
Cinco modelos abiertos en HuggingFace que suben AndroidWorld de 67% a 79,3% en el 35B-A3B y publican checkpoints FP8, Q4 GGUF y NVFP4 para correr el conjunto completo en una GPU de 12 GB con ~140 ms de latencia. Function calling nativo: dejas de atar tu automatización GUI a OpenAI Computer Use o Claude Computer Use.
FastMCP 3.4.0 'the remote release': puente stdio↔HTTP con OAuth automático para clientes MCP
fastmcp-remote conecta hosts MCP solo-stdio (Claude Desktop, Cursor) a servidores remotos sobre Streamable HTTP/SSE, con OAuth automático para HTTPS y bearer tokens custom. Suma CLI cliente (`fastmcp list/call/discover`), MCP Apps con `ui://` y Background Task Context coordinado con Redis.
CodeGraph: grafo de código local sobre SQLite que recorta 92% las tool calls en agentes
CLI más servidor MCP en TypeScript que parsea con tree-sitter 19 lenguajes (rutas de framework en 13), indexa símbolos y aristas en SQLite FTS5 con auto-sync por watcher y corre 100% local sin claves de API. Reportan 92% menos llamadas a herramientas y exploración 71% más rápida frente a Grep+Read.
Microsoft ASSERT: framework de evaluaciones spec-driven que convierte texto en pruebas de agente
Open Trust Stack lanza ASSERT (Adaptive Spec-driven Scoring): describes en lenguaje natural cómo debe comportarse el agente y el framework genera escenarios, los ejecuta contra LangChain, CrewAI, LightLLM u OpenAI y los puntúa con trayectorias auditables. Cierra el hueco entre benchmarks generales y evaluaciones propias.
Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.
Mellum2 como router: triage barato antes del frontier
# Patrón típico con Mellum2 (Apache 2.0, 12B MoE, 2,5B activos): # que el modelo barato decida si la tarea necesita frontier. # Recortas 70-90% del coste por petición sin perder las tareas duras. # System prompt minimal con salida JSON estricta (nada de free text): Eres un clasificador de tareas de código. Respondes SIEMPRE con UN único JSON válido. NUNCA texto fuera del JSON. { "complexity": "<low|medium|high>", "needs_repo_context": <true|false>, "needs_long_horizon": <true|false>, "route_to": "<mellum2|mai-code-1-flash|claude-opus-4.8>", "reason": "<una frase, máx 80 chars>" } Reglas de routing: - "low" sin repo context y sin long horizon → mellum2 (autoalojado) - "medium" o con repo context → mai-code-1-flash (256k, OpenRouter) - "high" o long horizon → claude-opus-4.8 (sandbox auditable) TAREA: {{task}} CONTEXTO DISPONIBLE: {{available_context}}
- 01 GitHub Copilot estrena sandboxes locales y cloud para llamadas a herramientas (public preview)
- 02 Cline estrena Cline Hub: web app con monitor de clientes, streaming y room secret para LAN
- 03 Cursor Teams junio: pools Composer/Auto, /loop para agentes locales y Automations multi-repo
- 04 OpenAI Codex jun 2026: Sites en preview, plugins por rol, sandbox Windows y comando /archive
- 05 Microsoft Foundry: Claude Opus 4.8 y GPT-5.5 disponibles en GA con SDKs Python, TS y C#
Cierre
Microsoft decide pelear el frontier de coding desde tres frentes a la vez. MAI-Code-1-Flash entra al model picker de VS Code Copilot y aparece simultáneamente en Fireworks, Baseten y OpenRouter; Copilot SDK llega a GA en seis lenguajes con sandboxes locales y cloud incluidas en el seat estándar; y ASSERT convierte specs en lenguaje natural en evaluaciones auditables sobre LangChain o CrewAI. Mientras, JetBrains Mellum2 marca la pauta del “modelo barato y rápido” para triage antes de pagar frontier, Holo3.1 lleva computer-use a una GPU de 12 GB con Apache 2.0 y CodeGraph prueba que mover la búsqueda de código a grafo local recorta 92% las llamadas a herramientas. Lo que deja de tener sentido para quien envía a producción: orquestar tu propio bucle agéntico cuando un SDK GA lo hace en seis lenguajes, depender de un solo frontier para todo cuando un MoE 12B abierto basta para el 70% de las tareas, y escribir evaluaciones a ojo cuando un framework convierte tu spec en pruebas.
Iván consulta sobre todo esto
Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.