5 minutos de IA

JUEVES, 4 DE JUNIO DE 2026

NOTICIA DESTACADA

MAI-Code-1-Flash: MoE 137B con 256k de contexto en VS Code Copilot, Fireworks, Baseten y OpenRouter

MoE de 137B parámetros con ventana de 256k que aparece simultáneamente en el model picker de VS Code Copilot y como endpoint en Fireworks AI, Baseten y OpenRouter. Microsoft reporta hasta 60% menos tokens que competidores y mejor coste/rendimiento que Haiku 4.5: lo enchufas como motor de agente de código sin atarte a Anthropic ni a OpenAI.

4 MIN LECTURA
NOTICIAS DEL DÍA
HERRAMIENTAS

GitHub Copilot SDK pasa a GA en Node, Python, Go, .NET, Rust y Java

El entorno de ejecución agéntico de Copilot (planificación, llamadas a herramientas, edits, streaming y multi-turno) ya se embebe en cualquier app desde npm, pip, go get, cargo o nuget. Sustituyes tu capa de orquestación propia y bajas el tiempo a un agente productivo de semanas a horas, con SLA de producción detrás.

GitHub Changelog · 3 MIN LEER FUENTE →
OPEN SOURCE

JetBrains libera Mellum2: MoE 12B Apache 2.0 con 131k de contexto para triage y resumen barato

MoE de 12B con solo 2,5B activos por token, 64 expertos y 131k de contexto, bajo Apache 2.0 y con pesos en Hugging Face. Pensado como modelo rápido y barato para clasificar, enrutar y resumir delante de un frontier: recortas 70-90% del coste por petición sin perder las tareas duras.

JetBrains · 3 MIN LEER FUENTE →
OPEN SOURCE

Holo3.1: familia VLM 0.8B–35B Apache 2.0 para agentes computer-use locales en 12 GB

Cinco modelos abiertos en HuggingFace que suben AndroidWorld de 67% a 79,3% en el 35B-A3B y publican checkpoints FP8, Q4 GGUF y NVFP4 para correr el conjunto completo en una GPU de 12 GB con ~140 ms de latencia. Function calling nativo: dejas de atar tu automatización GUI a OpenAI Computer Use o Claude Computer Use.

Hugging Face · 4 MIN LEER FUENTE →
HERRAMIENTAS

FastMCP 3.4.0 'the remote release': puente stdio↔HTTP con OAuth automático para clientes MCP

fastmcp-remote conecta hosts MCP solo-stdio (Claude Desktop, Cursor) a servidores remotos sobre Streamable HTTP/SSE, con OAuth automático para HTTPS y bearer tokens custom. Suma CLI cliente (`fastmcp list/call/discover`), MCP Apps con `ui://` y Background Task Context coordinado con Redis.

FastMCP · 3 MIN LEER FUENTE →
INDIE / COMUNIDAD

CodeGraph: grafo de código local sobre SQLite que recorta 92% las tool calls en agentes

CLI más servidor MCP en TypeScript que parsea con tree-sitter 19 lenguajes (rutas de framework en 13), indexa símbolos y aristas en SQLite FTS5 con auto-sync por watcher y corre 100% local sin claves de API. Reportan 92% menos llamadas a herramientas y exploración 71% más rápida frente a Grep+Read.

GitHub · 3 MIN LEER FUENTE →
TÉCNICAS

Microsoft ASSERT: framework de evaluaciones spec-driven que convierte texto en pruebas de agente

Open Trust Stack lanza ASSERT (Adaptive Spec-driven Scoring): describes en lenguaje natural cómo debe comportarse el agente y el framework genera escenarios, los ejecuta contra LangChain, CrewAI, LightLLM u OpenAI y los puntúa con trayectorias auditables. Cierra el hueco entre benchmarks generales y evaluaciones propias.

Microsoft Foundry · 5 MIN LEER FUENTE →
SNIPPET DEL DÍA

Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.

Mellum2 como router: triage barato antes del frontier

# Patrón típico con Mellum2 (Apache 2.0, 12B MoE, 2,5B activos): # que el modelo barato decida si la tarea necesita frontier. # Recortas 70-90% del coste por petición sin perder las tareas duras. # System prompt minimal con salida JSON estricta (nada de free text): Eres un clasificador de tareas de código. Respondes SIEMPRE con UN único JSON válido. NUNCA texto fuera del JSON. { "complexity": "<low|medium|high>", "needs_repo_context": <true|false>, "needs_long_horizon": <true|false>, "route_to": "<mellum2|mai-code-1-flash|claude-opus-4.8>", "reason": "<una frase, máx 80 chars>" } Reglas de routing: - "low" sin repo context y sin long horizon → mellum2 (autoalojado) - "medium" o con repo context → mai-code-1-flash (256k, OpenRouter) - "high" o long horizon → claude-opus-4.8 (sandbox auditable) TAREA: {{task}} CONTEXTO DISPONIBLE: {{available_context}}

PATRÓN LLM ROUTER (JETBRAINS MELLUM2 LAUNCH) VER FUENTE →

Cierre

Microsoft decide pelear el frontier de coding desde tres frentes a la vez. MAI-Code-1-Flash entra al model picker de VS Code Copilot y aparece simultáneamente en Fireworks, Baseten y OpenRouter; Copilot SDK llega a GA en seis lenguajes con sandboxes locales y cloud incluidas en el seat estándar; y ASSERT convierte specs en lenguaje natural en evaluaciones auditables sobre LangChain o CrewAI. Mientras, JetBrains Mellum2 marca la pauta del “modelo barato y rápido” para triage antes de pagar frontier, Holo3.1 lleva computer-use a una GPU de 12 GB con Apache 2.0 y CodeGraph prueba que mover la búsqueda de código a grafo local recorta 92% las llamadas a herramientas. Lo que deja de tener sentido para quien envía a producción: orquestar tu propio bucle agéntico cuando un SDK GA lo hace en seis lenguajes, depender de un solo frontier para todo cuando un MoE 12B abierto basta para el 70% de las tareas, y escribir evaluaciones a ojo cuando un framework convierte tu spec en pruebas.

¿LLEVAS IA A PRODUCCIÓN EN TU EMPRESA?

Iván consulta sobre todo esto

Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.