SÁBADO, 6 DE JUNIO DE 2026
MIT e IBM liberan ChartNet: 1,7M de charts sintéticos Apache 2.0 que dejan a un modelo pequeño batir a GPT-4o
Dataset masivo con código de plotting, imagen renderizada, tabla, descripción natural y QA con cadena de pensamiento, más 632k filas de razonamiento, 94k ejemplos verificados por humanos y 30k charts reales de documentos. Lo bajas de Hugging Face hoy y haces ajuste fino de un modelo de visión abierto que rinda como GPT-4o en chart QA sin pagar tokens de visión a OpenAI.
4 MIN LECTURAMistral libera Search Toolkit en preview pública: librería de RAG con ingestión, retrieval híbrido BM25/dense y evaluación nativa
Tres bloques componibles (ingestión, retrieval, evaluación) en una sola librería que corre en nube, on-prem o edge, con métricas integradas (recall, precision, MRR, NDCG) y soporte de BM25 sparse, dense embeddings e híbrido. Cambias LangChain + retriever artesanal + tu evaluación a mano por una librería abierta con todo el pipeline cubierto.
OpenAI saca Codex para 6 roles (datos, ventas, producto, equity, banca, creativo) más Codex Sites y Annotations
Cada plugin precablea hasta 62 apps (Snowflake, Figma, Salesforce…) y 110 skills sin configuración. Codex Sites materializa el output del agente como sitio interactivo alojado vía Wix, Replit, Lovable, Figma o Emergent. El CLI se expone como servidor MCP y se orquesta con Agents SDK, así que lo integras como una pieza más en tu pipeline.
Perplexity libera Bumblebee: escáner de cadena de suministro con inventario nativo de servidores MCP en tu portátil
Binario único en Go 1.25+ sin dependencias que cubre npm, pnpm, Yarn, Bun, PyPI, Go modules, RubyGems, Composer, configs MCP, extensiones de editor y de navegador. Tres perfiles (baseline, project, deep) y categoriza servidores MCP como respuesta operativa a los gusanos Shai-Hulud y Mini Shai-Hulud. Sustituye tu mezcla de `npm audit` + scripts caseros con un solo binario auditable.
GitHub Copilot CLI suma rubber duck (segundo agente crítico), dictado on-device y `/experimental` con scheduling
El agente principal puede invocar un segundo agente `rubber duck` que revisa plan, diseño, implementación o tests buscando puntos ciegos antes de que toques nada. Dictado por barra espaciadora sin enviar audio fuera del portátil y pestañas experimentales para Issues, PRs y Gists junto a la programación de instrucciones. Pasas de un `tmux` paralelo a un único CLI con segunda opinión integrada.
Anthropic abre los Dynamic Workflows en Claude Code: el modelo escribe un script JS que orquesta decenas o cientos de subagentes
Claude genera un script de orquestación en JavaScript que el runtime ejecuta en segundo plano; tu ventana de contexto solo guarda el resultado verificado, no el ruido intermedio de cada subagente. Diseñado para auditorías de código a escala, migraciones grandes y revisiones de seguridad. En research preview para Max, Team y Enterprise sobre el CLI, Desktop y VS Code.
LangGraph 1.0 estabiliza el runtime: ejecución durable, streaming, human-in-the-loop y memoria como primitivas listas para producción
Cuatro primitivas runtime estables que separan agentes de producción de demos: el grafo retoma donde se cayó sin perder contexto, pausa para revisión humana por API y persiste estado y memoria sin código pegamento. Deja de mantener tu propio `checkpointer` con Redis y tu HITL casero: lo absorbes con `langgraph` y `langchain.agents`.
Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.
Eval de trayectoria de tool calls: critic prompt en JSON puro
# Critic prompt para auditar UNA traza de agente: ¿usó las tools # correctas en el orden correcto? Devuelve JSON estricto para meterlo # en un dataset de evaluaciones y trackear regresiones por commit. Eres un auditor de agentes. Recibes: - GOAL: el objetivo del usuario. - PLAN: el plan textual que escribió el agente antes de actuar. - TRACE: lista ordenada de pasos (tool_name, args, result_summary). Devuelve SOLO JSON con esta forma exacta: { "plan_followed": "yes" | "partial" | "no", "wrong_tools": [<tool_name de llamadas innecesarias>], "missing_tools": [<tool_name de llamadas que faltaron>], "verdict": "pass" | "fail", "reason": "<una frase, máx 25 palabras>" } Reglas: - "missing_tools" pesa el doble que "wrong_tools" para el verdict. - Si GOAL se cumple con tools de más, "verdict" = "pass". - Si falta cualquier tool necesaria, "verdict" = "fail". - No expliques, no añadas markdown, no envuelvas en ```json. GOAL: {{goal}} PLAN: {{plan}} TRACE: {{trace_json}} JSON:
- 01 Claude Code v2.1.163 añade `requiredMinimumVersion`, `/plugin list` y `additionalContext` en hooks `Stop`/`SubagentStop`
- 02 Copilot Code Review estrena Agent Skills + soporte MCP y nivel medium que enruta PRs grandes a un modelo de razonamiento alto
- 03 Simon Willison disecciona los nuevos modelos MAI de Microsoft: el primer foundationals fuera del paraguas de OpenAI
- 04 Cursor mueve Bugbot a billing por uso puro y permite configurar el effort por PR; canvases compartidos en pantalla completa
- 05 GitHub retira GPT-5.2 y GPT-5.2-Codex de Copilot a partir del 5 de junio en todas las superficies salvo Code Review
Cierre
Hoy el patrón es claro: el ecosistema deja de pelearse con piezas sueltas y empieza a entregar primitivas estables. MIT e IBM liberan ChartNet Apache 2.0 para que un modelo pequeño rinda como GPT-4o en charts sin pagar tokens de visión, Mistral mete ingestión, retrieval híbrido y evaluación en una sola librería abierta, y LangGraph 1.0 estabiliza ejecución durable, memoria y human-in-the-loop como API de primera. Anthropic sube un peldaño con los Dynamic Workflows, que dejan que el propio modelo escriba el orquestador en JavaScript y reserva el contexto solo para el resultado verificado. Perplexity convierte la cadena de suministro y los servidores MCP en algo auditable con un binario único, y GitHub mete un segundo agente crítico dentro del Copilot CLI para revisar al primero. Lo que deja de tener sentido en producción: pagar visión a OpenAI cuando un dataset abierto entrena tu propio modelo, mantener checkpointers a mano cuando el grafo persiste solo, y orquestar subagentes desde el contexto principal cuando puedes delegar el script al runtime.
Iván consulta sobre todo esto
Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.