Eval pre-deploy: replay de producción contra el candidato

JUEVES, 18 DE JUNIO DE 2026

NOTICIA DESTACADA

Deployment Simulation: OpenAI replaya 1,3M conversaciones reales contra el modelo candidato

Coge 7 meses de tráfico de ChatGPT, descarta la respuesta del modelo viejo y la regenera con el candidato para medir deriva con error multiplicativo mediano 1,5x. Te llevas el método a tus evaluaciones: en lugar de prompts sintéticos, replayas conversaciones reales y descubres patologías como el 'calculator hacking' antes de empujar el modelo a prod.

6 MIN LECTURA

NOTICIAS DEL DÍA

OPEN SOURCE

OpenClaw v2026.6.8 entrega por Telegram y WhatsApp con texto enriquecido y suma GLM-5.2 y Haiku 4.5

Renderizado estructurado de DMs y adjuntos en canales móviles, IDs de proveedor normalizados y pie de uso con límites por credenciales. Sustituyes un router de mensajería propio: el agente publica al móvil del cliente sin envoltorio aparte y abaratas el routing moviendo tráfico ligero a Haiku 4.5 sin tocar el workflow.

OpenClaw — GitHub · 4 MIN LEER FUENTE →

HERRAMIENTAS

OpenAI Realtime API cacha texto al 50% y audio al 80%, y suma cinco voces más expresivas

Prompt caching baja un 30% una sesión típica de 15 min: 50% sobre el texto cacheado y 80% sobre el audio. Cinco voces nuevas (Ash, Ballad, Coral, Sage, Verse) con control fino de emoción, acento y tono. Mueves un asistente de voz a producción sin reescribir la sesión y partes el coste del primer minuto a la mitad.

OpenAI Developer Community · 3 MIN LEER FUENTE →

INDUSTRIA

Pydantic AI parchea confused-deputy y SSRF: cualquier cliente lee ficheros vía VercelAIAdapter

GHSA-h7p7-w5gc-xj3w (CVSS 8.6) y GHSA-2jrp-274c-jhv3: si tu agente acepta historial de cliente sin filtrar y usa VercelAIAdapter, el atacante referencia UploadedFile que tu cuenta de S3/GCS sí puede leer. Actualiza a v2.0.0b7 / v1.107.0 o despoja UploadedFile antes del `run()` — no hay mitigación en runtime.

GitHub Security Advisory · 4 MIN LEER FUENTE →

OPEN SOURCE

MiniMax M3 publica los pesos en Hugging Face: MoE 428B con 1M de contexto y SWE-Bench Pro 59,0%

MoE con 23B activos por token y atención dispersa MSA que recorta el coste al 1/20 a 1M tokens, con prefilling 9x y decoding 15x más rápidos. Enchufas un coder agéntico open-weight a tu pipeline sin licencia comercial cerrada y con la calidad que antes pedía una API propietaria.

Hugging Face · 4 MIN LEER FUENTE →

OPEN SOURCE

ECC v2.0.0 lanza un harness cross-platform: 261 skills y 64 agentes en Claude Code, Cursor y Codex

Adaptador de sesión común para Claude Code, Cursor, Codex, OpenCode, Gemini y Zed, MCP inventory compartido y orquestación multi-agente vía la familia `orch-*`. Un único `/plugin install ecc` y tu equipo deja de mantener skills duplicadas entre la CLI y el IDE.

ECC — GitHub · 4 MIN LEER FUENTE →

SNIPPET DEL DÍA

Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.

Replay de conversaciones contra el modelo candidato

# replay_eval.py — Patrón "Deployment Simulation" (OpenAI, jun 2026). # Replaya conversaciones reales: descarta la respuesta del modelo viejo # y regenera con el candidato; un juez binario mide deriva por criterio. from anthropic import Anthropic c = Anthropic() CANDIDATE = "claude-opus-4-8" # el que vas a desplegar JUDGE = "claude-haiku-4-5" # juez barato, prompt aislado CRITS = ["factualmente correcta", "tono del system prompt", "tool calls intactas"] def replay(conv): # conv: lista de mensajes (último = asistente) hist, old = conv[:-1], conv[-1]["content"] new = c.messages.create(model=CANDIDATE, messages=hist, max_tokens=1024).content[0].text return old, new def grade(old, new): p = f"VIEJO:\n{old}\n\nNUEVO:\n{new}\n\nResponde SI/NO por criterio:\n" + "\n".join(CRITS) return c.messages.create(model=JUDGE, messages=[{"role":"user","content":p}], max_tokens=200).content[0].text for conv in load_sample("prod.jsonl"): # 1-10k convs detectan deriva agregada print(grade(*replay(conv)))

OPENAI RESEARCH VER FUENTE →

LO DEMÁS DE HOY

Cierre

El 18 de junio pone la mira en una idea sola: la evaluación pre-deploy se mueve al tráfico real. OpenAI publica Deployment Simulation y enseña a replayar 1,3M conversaciones contra el modelo candidato antes del rollout; el mismo patrón te lo llevas a tus evaluaciones con un juez barato y un sample de tu producción. En paralelo, la Realtime API parte el coste del primer minuto con prompt caching al 50%/80%, y MiniMax M3 sube los pesos a Hugging Face con 1M de contexto y SWE-Bench Pro 59,0%: el coder agéntico open-weight ya no obliga a renunciar a calidad. Mientras, Pydantic AI parchea dos CVE críticos en VercelAIAdapter y OpenClaw v2026.6.8 entrega por Telegram y WhatsApp con texto enriquecido; ECC v2.0.0 unifica skills entre Claude Code, Cursor, Codex y Gemini con un /plugin install ecc. La lectura clave para llevar IA a prod: el modelo deja de ser un benchmark sintético y empieza a evaluarse contra la cola real de tus usuarios — y los conmutadores de coste, governance y entrega se montan abajo del agente, no en el panel del proveedor.

¿LLEVAS IA A PRODUCCIÓN EN TU EMPRESA?

Iván consulta sobre todo esto

Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.

RESERVAR LLAMADA → VER SERVICIOS

VER TODAS LAS EDICIONES