5 minutos de IA

SÁBADO, 30 DE MAYO DE 2026

NOTICIA DESTACADA

Claude Code 2.1.157: plugins se autocargan desde .claude/skills y `claude plugin init` los crea

Cualquier carpeta dentro de `.claude/skills` se monta como plugin sin pasar por un marketplace; `claude plugin init <name>` la genera ya estructurada. El campo `agent` de `settings.json` se respeta en sesiones despachadas con `claude agents`, `EnterWorktree` salta entre worktrees a media sesión y los worktrees quedan desbloqueados para `git worktree remove`. Cierra el bucle skill → prueba aislada → limpieza sin abandonar la terminal.

4 MIN LECTURA
NOTICIAS DEL DÍA
OPEN SOURCE

mcp-memory-service v10.70.3: memoria persistente con grafo de conocimiento sobre 25 clientes MCP

REST API con 76 endpoints, almacenamiento estructurado más vectorial y consolidación autónoma por decaimiento. Funciona con LangGraph, CrewAI, AutoGen, Claude Code, Cursor, Codex, OpenCode y Aider sin atar tus memorias a un proveedor. Apache 2.0.

GitHub · 3 MIN LEER FUENTE →
OPEN SOURCE

agent-skills-eval: test runner MIT para tus SKILL.md con modo baseline y juez LLM

Implementa la especificación agentskills.io: valida frontmatter, ejecuta evals/evals.json contra un modelo objetivo y otro juez, y genera un informe HTML con la comparación con/sin la skill. Convierte tus skills en código con tests antes de tocarlos en prod.

GitHub · 3 MIN LEER FUENTE →
OPEN SOURCE

DAC 0.2.4: dashboards-as-code en YAML y TSX con agente Codex integrado

Defines paneles en ficheros versionables sobre Postgres, MySQL, Snowflake, BigQuery, Redshift y Databricks; el agente Codex chatea contra el dashboard y aplica cambios revisables por PR. Trae una skill para Claude y Codex que entiende su capa semántica. AGPL-3.0.

GitHub · 3 MIN LEER FUENTE →
TUTORIALES

Latent Space: cómo Cognition pasó del 16% al 80% de commits con agentes en segundo plano

Walden Yan (Cognition) y Cole Murray (OpenInspect) desmontan la arquitectura del background agent que llevó a Devin de 16% a 80% de commits: separación cerebro-máquina, VMs completas, snapshots, secretos por scope, verificación por vídeo y por qué Docker no basta para el repo setup.

Latent Space · 6 MIN LEER FUENTE →
INDIE / COMUNIDAD

Pi 0.74 estrena casa en earendil-works: el toolkit de agentes de Mario Zechner se moderniza

Núcleo mínimo MIT con API LLM unificada para 15 proveedores (Anthropic, OpenAI, Google, Azure, Bedrock, Mistral, Groq, Cerebras, xAI…), CLI de coding agent, librería TUI y bot de Slack. Sin subagentes ni permisos hardcodeados: todo se extiende, mismo motor que usa OpenClaw.

GitHub · 3 MIN LEER FUENTE →
SNIPPET DEL DÍA

Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.

Eval mínimo para una skill: assertions, baseline y juez LLM

# evals/evals.json — qué exige tu skill antes de tocarla en prod { "skill_name": "postgres-migrations", "evals": [ { "id": "rollback-y-no-bloqueo", "name": "Migración reversible y no bloqueante", "prompt": "Crea migración para añadir índice en users(email)", "files": ["evals/files/schema.sql"], "expected_output": "Migración con UP/DOWN y CONCURRENTLY", "assertions": [ "Incluye DROP INDEX en el rollback", "El CREATE INDEX usa CONCURRENTLY", "No referencia tablas fuera de users" ] } ] } # Lanza el runner: target ejecuta, judge puntúa, baseline mide # el delta real frente a no usar la skill. npx agent-skills-eval ./.claude/skills/postgres-migrations \ --target sonnet-4-6 \ --judge haiku-4-5 \ --baseline \ --strict # Resultado en iteration-1/report/index.html con el lado a # lado con/sin skill y benchmark.json para el pipeline.

DARKRISHABH/AGENT-SKILLS-EVAL VER FUENTE →

Cierre

El día deja una idea clara para quien envía a producción: las skills dejan de ser ficheros sueltos y entran al ciclo de plugin, prueba y memoria. Claude Code 2.1.157 convierte .claude/skills en marketplace local con claude plugin init y respeta el agente declarado en settings.json; agent-skills-eval trae assertions y juez LLM con modo baseline para medir si la skill mueve la aguja antes de promoverla; y mcp-memory-service estandariza la memoria persistente vía MCP en 25 clientes con grafo de conocimiento sobre Apache 2.0. En la capa de producto, DAC y Pi muestran el mismo patrón: núcleo mínimo, extensibilidad por código y agentes que entran como ciudadanos de primera. Lo que deja de ser válido: skills que se prueban a ojo en una conversación, memorias atadas a un proveedor cerrado y dashboards que solo se editan a clicks.

¿LLEVAS IA A PRODUCCIÓN EN TU EMPRESA?

Iván consulta sobre todo esto

Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.