ChartNet: dataset Apache 2.0 que bate a GPT-4o en charts

SÁBADO, 6 DE JUNIO DE 2026

NOTICIA DESTACADA

MIT e IBM liberan ChartNet: 1,7M de charts sintéticos Apache 2.0 que dejan a un modelo pequeño batir a GPT-4o

Dataset masivo con código de plotting, imagen renderizada, tabla, descripción natural y QA con cadena de pensamiento, más 632k filas de razonamiento, 94k ejemplos verificados por humanos y 30k charts reales de documentos. Lo bajas de Hugging Face hoy y haces ajuste fino de un modelo de visión abierto que rinda como GPT-4o en chart QA sin pagar tokens de visión a OpenAI.

4 MIN LECTURA

NOTICIAS DEL DÍA

OPEN SOURCE

Mistral libera Search Toolkit en preview pública: librería de RAG con ingestión, retrieval híbrido BM25/dense y evaluación nativa

Tres bloques componibles (ingestión, retrieval, evaluación) en una sola librería que corre en nube, on-prem o edge, con métricas integradas (recall, precision, MRR, NDCG) y soporte de BM25 sparse, dense embeddings e híbrido. Cambias LangChain + retriever artesanal + tu evaluación a mano por una librería abierta con todo el pipeline cubierto.

Mistral AI · 4 MIN LEER FUENTE →

HERRAMIENTAS

OpenAI saca Codex para 6 roles (datos, ventas, producto, equity, banca, creativo) más Codex Sites y Annotations

Cada plugin precablea hasta 62 apps (Snowflake, Figma, Salesforce…) y 110 skills sin configuración. Codex Sites materializa el output del agente como sitio interactivo alojado vía Wix, Replit, Lovable, Figma o Emergent. El CLI se expone como servidor MCP y se orquesta con Agents SDK, así que lo integras como una pieza más en tu pipeline.

OpenAI Developers · 4 MIN LEER FUENTE →

OPEN SOURCE

Perplexity libera Bumblebee: escáner de cadena de suministro con inventario nativo de servidores MCP en tu portátil

Binario único en Go 1.25+ sin dependencias que cubre npm, pnpm, Yarn, Bun, PyPI, Go modules, RubyGems, Composer, configs MCP, extensiones de editor y de navegador. Tres perfiles (baseline, project, deep) y categoriza servidores MCP como respuesta operativa a los gusanos Shai-Hulud y Mini Shai-Hulud. Sustituye tu mezcla de `npm audit` + scripts caseros con un solo binario auditable.

Perplexity AI · 3 MIN LEER FUENTE →

HERRAMIENTAS

GitHub Copilot CLI suma rubber duck (segundo agente crítico), dictado on-device y `/experimental` con scheduling

El agente principal puede invocar un segundo agente `rubber duck` que revisa plan, diseño, implementación o tests buscando puntos ciegos antes de que toques nada. Dictado por barra espaciadora sin enviar audio fuera del portátil y pestañas experimentales para Issues, PRs y Gists junto a la programación de instrucciones. Pasas de un `tmux` paralelo a un único CLI con segunda opinión integrada.

GitHub Changelog · 3 MIN LEER FUENTE →

TÉCNICAS

Anthropic abre los Dynamic Workflows en Claude Code: el modelo escribe un script JS que orquesta decenas o cientos de subagentes

Claude genera un script de orquestación en JavaScript que el runtime ejecuta en segundo plano; tu ventana de contexto solo guarda el resultado verificado, no el ruido intermedio de cada subagente. Diseñado para auditorías de código a escala, migraciones grandes y revisiones de seguridad. En research preview para Max, Team y Enterprise sobre el CLI, Desktop y VS Code.

Anthropic · 5 MIN LEER FUENTE →

OPEN SOURCE

LangGraph 1.0 estabiliza el runtime: ejecución durable, streaming, human-in-the-loop y memoria como primitivas listas para producción

Cuatro primitivas runtime estables que separan agentes de producción de demos: el grafo retoma donde se cayó sin perder contexto, pausa para revisión humana por API y persiste estado y memoria sin código pegamento. Deja de mantener tu propio `checkpointer` con Redis y tu HITL casero: lo absorbes con `langgraph` y `langchain.agents`.

LangChain · 4 MIN LEER FUENTE →

SNIPPET DEL DÍA

Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.

Eval de trayectoria de tool calls: critic prompt en JSON puro

# Critic prompt para auditar UNA traza de agente: ¿usó las tools # correctas en el orden correcto? Devuelve JSON estricto para meterlo # en un dataset de evaluaciones y trackear regresiones por commit. Eres un auditor de agentes. Recibes: - GOAL: el objetivo del usuario. - PLAN: el plan textual que escribió el agente antes de actuar. - TRACE: lista ordenada de pasos (tool_name, args, result_summary). Devuelve SOLO JSON con esta forma exacta: { "plan_followed": "yes" | "partial" | "no", "wrong_tools": [<tool_name de llamadas innecesarias>], "missing_tools": [<tool_name de llamadas que faltaron>], "verdict": "pass" | "fail", "reason": "<una frase, máx 25 palabras>" } Reglas: - "missing_tools" pesa el doble que "wrong_tools" para el verdict. - Si GOAL se cumple con tools de más, "verdict" = "pass". - Si falta cualquier tool necesaria, "verdict" = "fail". - No expliques, no añadas markdown, no envuelvas en ```json. GOAL: {{goal}} PLAN: {{plan}} TRACE: {{trace_json}} JSON:

CONFIDENT AI — LLM AGENT EVALUATION METRICS IN 2026 VER FUENTE →

LO DEMÁS DE HOY

Cierre

Hoy el patrón es claro: el ecosistema deja de pelearse con piezas sueltas y empieza a entregar primitivas estables. MIT e IBM liberan ChartNet Apache 2.0 para que un modelo pequeño rinda como GPT-4o en charts sin pagar tokens de visión, Mistral mete ingestión, retrieval híbrido y evaluación en una sola librería abierta, y LangGraph 1.0 estabiliza ejecución durable, memoria y human-in-the-loop como API de primera. Anthropic sube un peldaño con los Dynamic Workflows, que dejan que el propio modelo escriba el orquestador en JavaScript y reserva el contexto solo para el resultado verificado. Perplexity convierte la cadena de suministro y los servidores MCP en algo auditable con un binario único, y GitHub mete un segundo agente crítico dentro del Copilot CLI para revisar al primero. Lo que deja de tener sentido en producción: pagar visión a OpenAI cuando un dataset abierto entrena tu propio modelo, mantener checkpointers a mano cuando el grafo persiste solo, y orquestar subagentes desde el contexto principal cuando puedes delegar el script al runtime.

¿LLEVAS IA A PRODUCCIÓN EN TU EMPRESA?

Iván consulta sobre todo esto

Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.

RESERVAR LLAMADA → VER SERVICIOS

VER TODAS LAS EDICIONES