DiffusionGemma 26B: pesos abiertos y 4x más rápido en local

VIERNES, 12 DE JUNIO DE 2026

NOTICIA DESTACADA

DiffusionGemma 26B: Google libera un MoE de difusión Apache 2.0 con 700 tok/s en una RTX 5090

Modelo de pesos abiertos de 26B con 3,8B activos que genera 256 tokens en paralelo en vez de uno a uno: pasa de 1000 tok/s en una H100 y 700 tok/s en una RTX 5090. Lo bajas, lo sirves tú mismo y obtienes un endpoint local pensado para edición de texto en línea y agentes con bucles cortos, sin pagar inferencia por token ni atarte a Google.

4 MIN LECTURA

NOTICIAS DEL DÍA

HERRAMIENTAS

Claude Code anida subagentes hasta 5 niveles para descargar contexto sin orquestador a mano

Cada subagente arranca con una ventana fresca, así delegas el grueso de la búsqueda sin reventar el contexto del agente raíz. Útil cuando una sesión de producción tiene que tocar varios repos o servicios y antes te tocaba mantener un orquestador propio que troceara el trabajo.

Claude Code Changelog · 3 MIN LEER FUENTE →

HERRAMIENTAS

Cursor Bugbot revisa en 90 segundos y suma /review para correrlo antes del push

Bugbot es 3x más rápido y 22% más barato, y ahora un comando `/review` lo lanza local antes de subir el commit. Recortas la latencia y el coste del CI agéntico: la primera ronda de feedback la pagas en tu turno, no en pipeline minutos después de empujar.

Cursor Blog · 3 MIN LEER FUENTE →

HERRAMIENTAS

Codex añade búsqueda web a code mode y conserva oneOf/allOf en los esquemas MCP

Code mode llama búsqueda web como herramienta independiente y preserva oneOf/allOf cuando comprime esquemas grandes. Resultado en producción: los MCP servers con esquemas ricos dejan de fallar en silencio y el comando doctor tacha secretos antes de mandar el reporte.

OpenAI Codex Changelog · 3 MIN LEER FUENTE →

INDIE / COMUNIDAD

Simon Willison libera llm 0.32a3 con PauseChain y ask_user para human-in-the-loop nativo

Una herramienta lanza `llm.PauseChain`, el CLI persiste el estado con los resultados hermanos completados y reanudas desde `messages=`. Es la pieza que faltaba para meter agentes en producción cuando la decisión la tiene que firmar un humano sin perder lo ejecutado.

Simon Willison · 3 MIN LEER FUENTE →

TÉCNICAS

Claude Code autocarga skills desde .claude/skills y estrena /reload-skills y disallowed-tools

Los skills locales se cargan solos sin pasar por marketplace, `/reload-skills` reindexa sin reiniciar la sesión y el frontmatter del skill puede declarar `disallowed-tools` para retirar herramientas mientras esté activo. Gobernanza por skill sin tocar la configuración global del proyecto.

Anthropic GitHub Releases · 3 MIN LEER FUENTE →

TUTORIALES

Digital Applied despieza cómo Bugbot baja a 90 segundos: revisión incremental y Composer 2.5

Análisis del cambio interno: el reviewer solo mira lo nuevo desde el último review, el harness se rehízo y por debajo gira Composer 2.5. Es el patrón que copias si construyes tu propio revisor agéntico y no quieres pagar el coste completo en cada commit.

Digital Applied · 5 MIN LEER FUENTE →

SNIPPET DEL DÍA

Una técnica, prompt o comando aplicable hoy. Cópialo, pruébalo en tu stack en menos de 5 minutos y reenvíalo a un colega si te resulta útil. Ejemplos típicos: un prompt para evals, un patrón de agente, un comando que recorta tokens o un truco de RAG.

Receta de hybrid search en producción: BM25 + vector + RRF + cross-encoder

# rag_hybrid.py — recuperación híbrida lista para producción # 1) BM25 y dense en paralelo, k=100 cada uno # 2) Reciprocal Rank Fusion: rank-based, evita el lío de escalas # 3) Cross-encoder sobre los 50 fusionados, truncado para el LLM from sentence_transformers import CrossEncoder K, A, B = 60, 0.7, 0.3 # k=60 es el default canónico de RRF def rrf(dense_ids, bm25_ids): s = {} for r, d in enumerate(dense_ids, 1): s[d] = s.get(d, 0) + A / (K + r) for r, d in enumerate(bm25_ids, 1): s[d] = s.get(d, 0) + B / (K + r) return sorted(s, key=s.get, reverse=True) def retrieve(q, docs, top_n=5): dense = vector_index.search(q, k=100) bm25 = bm25_index.top_n(q.split(), k=100) fused = rrf(dense, bm25)[:50] pairs = [(q, docs[i]) for i in fused] scores = CrossEncoder("BAAI/bge-reranker-v2-m3").predict(pairs) return [i for i, _ in sorted(zip(fused, scores), key=lambda x: -x[1])][:top_n]

DIGITAL APPLIED VER FUENTE →

LO DEMÁS DE HOY

Cierre

Si la edición de ayer apuntaba a cómo cada actor está abriendo el agente, hoy la línea común es delegar contexto sin reventar la ventana. Claude Code anida subagentes hasta cinco niveles para que la sesión raíz respire, llm 0.32a3 mete human-in-the-loop con PauseChain y Cursor Bugbot baja la revisión a 90 segundos partiendo el trabajo en incrementos. DiffusionGemma entra por debajo como la pieza autoalojable: 4x más rápido, Apache 2.0 y servible desde una RTX 5090, justo para los flujos donde la latencia decide si el agente vive en producción o se queda en demo. La parte que no titula pero llega a la factura: el RAG sigue ganando partidos cuando juntas BM25, vector y un cross-encoder, no cuando cambias de modelo.

¿LLEVAS IA A PRODUCCIÓN EN TU EMPRESA?

Iván consulta sobre todo esto

Ingeniero IA con 10+ años en Openbank, Inditex e Iberia. Agentes autónomos, integraciones LLM, RAG auditable — del piloto al despliegue real.

RESERVAR LLAMADA → VER SERVICIOS

VER TODAS LAS EDICIONES