VIERNES, 12 DE JUNIO DE 2026
DiffusionGemma 26B: Google libera un MoE de difusión Apache 2.0 con 700 tok/s en una RTX 5090
Modelo de pesos abiertos de 26B con 3,8B activos que genera 256 tokens en paralelo en vez de uno a uno: pasa de 1000 tok/s en una H100 y 700 tok/s en una RTX 5090. Lo bajas, lo sirves tú mismo y obtienes un endpoint local pensado para edición de texto en línea y agentes con bucles cortos, sin pagar inferencia por token ni atarte a Google.
4 MIN LECTURAClaude Code anida subagentes hasta 5 niveles para descargar contexto sin orquestador a mano
Cada subagente arranca con una ventana fresca, así delegas el grueso de la búsqueda sin reventar el contexto del agente raíz. Útil cuando una sesión de producción tiene que tocar varios repos o servicios y antes te tocaba mantener un orquestador propio que troceara el trabajo.
Cursor Bugbot revisa en 90 segundos y suma /review para correrlo antes del push
Bugbot es 3x más rápido y 22% más barato, y ahora un comando `/review` lo lanza local antes de subir el commit. Recortas la latencia y el coste del CI agéntico: la primera ronda de feedback la pagas en tu turno, no en pipeline minutos después de empujar.
Codex añade búsqueda web a code mode y conserva oneOf/allOf en los esquemas MCP
Code mode llama búsqueda web como herramienta independiente y preserva oneOf/allOf cuando comprime esquemas grandes. Resultado en producción: los MCP servers con esquemas ricos dejan de fallar en silencio y el comando doctor tacha secretos antes de mandar el reporte.
Simon Willison libera llm 0.32a3 con PauseChain y ask_user para human-in-the-loop nativo
Una herramienta lanza `llm.PauseChain`, el CLI persiste el estado con los resultados hermanos completados y reanudas desde `messages=`. Es la pieza que faltaba para meter agentes en producción cuando la decisión la tiene que firmar un humano sin perder lo ejecutado.
Claude Code autocarga skills desde .claude/skills y estrena /reload-skills y disallowed-tools
Los skills locales se cargan solos sin pasar por marketplace, `/reload-skills` reindexa sin reiniciar la sesión y el frontmatter del skill puede declarar `disallowed-tools` para retirar herramientas mientras esté activo. Gobernanza por skill sin tocar la configuración global del proyecto.
Digital Applied despieza cómo Bugbot baja a 90 segundos: revisión incremental y Composer 2.5
Análisis del cambio interno: el reviewer solo mira lo nuevo desde el último review, el harness se rehízo y por debajo gira Composer 2.5. Es el patrón que copias si construyes tu propio revisor agéntico y no quieres pagar el coste completo en cada commit.
Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.
Receta de hybrid search en producción: BM25 + vector + RRF + cross-encoder
# rag_hybrid.py — recuperación híbrida lista para producción # 1) BM25 y dense en paralelo, k=100 cada uno # 2) Reciprocal Rank Fusion: rank-based, evita el lío de escalas # 3) Cross-encoder sobre los 50 fusionados, truncado para el LLM from sentence_transformers import CrossEncoder K, A, B = 60, 0.7, 0.3 # k=60 es el default canónico de RRF def rrf(dense_ids, bm25_ids): s = {} for r, d in enumerate(dense_ids, 1): s[d] = s.get(d, 0) + A / (K + r) for r, d in enumerate(bm25_ids, 1): s[d] = s.get(d, 0) + B / (K + r) return sorted(s, key=s.get, reverse=True) def retrieve(q, docs, top_n=5): dense = vector_index.search(q, k=100) bm25 = bm25_index.top_n(q.split(), k=100) fused = rrf(dense, bm25)[:50] pairs = [(q, docs[i]) for i in fused] scores = CrossEncoder("BAAI/bge-reranker-v2-m3").predict(pairs) return [i for i, _ in sorted(zip(fused, scores), key=lambda x: -x[1])][:top_n]
- 01 AWS MCP Server suma acceso cross-account y cross-role para Claude Code, Codex y Kiro
- 02 MCP 2026-07-28 RC vuelve el protocolo sin estado y elimina el header Mcp-Session-Id
- 03 Simon Willison publica sus primeras impresiones de Claude Fable 5 sobre tareas reales
- 04 Augment Intent llega a Product Hunt con desarrollo multi-agente dirigido por especificación
- 05 Tokenwise estrena enrutado, observabilidad y tope de gasto para equipos que usan varios LLMs
Cierre
Si la edición de ayer apuntaba a cómo cada actor está abriendo el agente, hoy la línea común es delegar contexto sin reventar la ventana. Claude Code anida subagentes hasta cinco niveles para que la sesión raíz respire, llm 0.32a3 mete human-in-the-loop con PauseChain y Cursor Bugbot baja la revisión a 90 segundos partiendo el trabajo en incrementos. DiffusionGemma entra por debajo como la pieza autoalojable: 4x más rápido, Apache 2.0 y servible desde una RTX 5090, justo para los flujos donde la latencia decide si el agente vive en producción o se queda en demo. La parte que no titula pero llega a la factura: el RAG sigue ganando partidos cuando juntas BM25, vector y un cross-encoder, no cuando cambias de modelo.
Iván consulta sobre todo esto
Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.