F5 (NASDAQ: FFIV) anunció la ampliación de BIG-IP Next for Kubernetes sobre los nuevos NVIDIA BlueField-4 DPU, con la mira puesta en las fábricas de IA a gigascala. La combinación promete hasta 800 Gb/s de red multi-tenant con control inteligente, mejoras de seguridad zero-trust y aceleración de cargas LLM (inferencia) que se traducen —según F5— en +30 % de capacidad de generación de tokens manteniendo expectativas “cloud-grade”.
El movimiento encaja en la tendencia de llevar funciones de red y seguridad al DPU (data processing unit) para liberar las GPU de trabajo ajeno a la IA y reducir latencias p99. En contextos con ventanas de contexto enormes, agentes autónomos y tráfico multi-modelo, cada microsegundo cuenta.
Qué aporta la integración F5 + BlueField-4 (en corto)
- Rendimiento, multi-tenancy y seguridad: F5 cifra en +30 % la mejora en capacidad de token al descargar data path y controles al DPU, preservando aislamiento entre inquilinos a hasta 800 Gb/s.
 - Inferencia LLM optimizada: integración con NVIDIA Dynamo y KV Cache Manager para recortar latencia, aprovechar mejor la GPU, permitir serving desagregado y adaptarse a intensidad de memoria variable (cambios en prompt y contexto).
 - Enrutado inteligente multi-modelo: vía NVIDIA NIM (microservicios), el control plane de F5 puede dirigir tráfico entre varios modelos para buscar mejor TTFT (Time to First Token), coste o calidad.
 - Gobernanza granular de tokens: métricas y visibilidad para cumplimiento, contabilidad y riesgo, clave en entornos multi-equipo.
 - MCP a escala y seguro: protección reforzada para Model Context Protocol, de modo que los agents y herramientas que dependen de MCP mantengan velocidad sin abrir huecos de seguridad.
 - Zero-trust en VM y bare-metal: apoyado en NVIDIA DOCA Platform Framework (DPF), con segmentación de inquilinos y redes de IA distribuidas seguras por diseño.
 - Programabilidad: F5 iRules aplicadas a flujos de IA para crear políticas, rate-limits o maniobras de seguridad a medida.
 
Traducción práctica: El DPU acelera y aísla la vía rápida de datos (cifrado, telemetry, segmentación, WAF/L4-7, etc.), y F5 añade observabilidad y control para que el scheduler de IA sirva más tokens con menos cola.
Por qué importa para cargas de IA modernas
1) Más tokens/segundo y mejor TTFT
- KV-cache caliente y gestionada → menos cache misses, menos hops a memoria, GPU más ocupada en cómputo real.
 - DPU offload → menos context switch en CPU del host, menos jitter y p99 más predecible.
 
2) Eficiencia en clusters heterogéneos
- Con NIM, el control plane puede balancear entre modelos/versions (coste/latencia/calidad) sin que el cliente lo perciba.
 - Útil para canarias, A/B, fallback por región/SLAs o graceful degradation en picos.
 
3) Seguridad y multi-tenancy sin penalizar rendimiento
- DOCA/DPF permite micro-segmentación de tenants y servicios de IA (por proyecto, equipo o cliente) con cifrado y políticas cerca del cable.
 - Menos superficie expuesta en el host y cumplimiento más sencillo en entornos regulados.
 
4) Gobernanza de uso
- Token accounting por modelo/tenant/cola → base para chargeback/showback, límite de presupuesto, políticas de prioridad y detección de abuso.
 
Dónde encaja en la pila de una “AI factory”
Capa física/IO: BlueField-4 DPU (aceleración de red, cifrado, telemetry, DOCA).
Capa de red/seguridad L4-L7: F5 BIG-IP Next for Kubernetes (service proxy, WAF/API, balanceo, iRules).
Capa de serving y orquestación de modelos: NVIDIA NIM + Dynamo + KV Cache Manager (runtimes, schedulers, gestión de memoria/estado).
Capa de aplicación: gateways de IA, routers multimodelo, MCP, agents.
La propuesta: desagregar el serving (estado, caché, control) del cálculo en GPU y empujar red/seguridad al DPU para escalar por bloques (más nodos, mismos SLOs).
Consideraciones de diseño (si estás planificando adopción)
- Topologías: valida throughput efectivo por nodo (hasta 800 Gb/s es techo de interfaz; mira goodput con cifrado, telemetría y políticas activas).
 - SLOs: define TTFT, tokens/s, p95/p99 y error budgets por cola/modelo/tenant; activa autoscaling sobre métricas reales (cola, utilization, cache hit).
 - Políticas e iRules: rate-limit por tenant, token caps, fallback de modelo, circuit breaking hacia rutas saturadas.
 - Observabilidad: trazabilidad L7 + token accounting + GPU utilization; alerta por degradación de KV-cache o deriva de latencia.
 - Seguridad: DOCA/DPF para micro-segmentación, mTLS entre microservicios, WAF/API security en endpoints públicos, y políticas MCP endurecidas.
 - Coste: compara tokens/$ en GPU liberada vs. coste de DPU y la huella de F5; mide ahorro por consolidación de funciones de red/seguridad.
 
Caso de uso típico
- Inferencia multi-modelo (grandes ventanas de contexto) con SLO de TTFT bajo.
 - Tráfico multi-tenant (equipos/clientes) con límite de presupuesto y prioridades.
 - Cumplimiento (contabilidad de tokens, rastro de decisiones, policies auditables).
 - Despliegues híbridos: VM y bare-metal en on-prem/colo con Zero Trust consistente.
 
La letra pequeña
F5 enmarca el anuncio como expansión de su solución Kubernetes sobre BlueField-4; los beneficios citados (como +30 % de capacidad de token) dependen de diseño, carga y tuning. Como toda nota de producto, incluye declaraciones prospectivas sujetas a integración y resultados variables por entorno.
En resumen
F5 y NVIDIA empujan la red y la seguridad al DPU y desagregan el serving para que las GPU hagan IA, no packet-pushing. Con BIG-IP Next for Kubernetes sobre BlueField-4, las organizaciones pueden servir más tokens, antes y con menos jitter, mantener aislamiento de inquilinos y gobernar el uso, un combo clave para la próxima ola de fábricas de IA y sistemas agénticos.
vía: f5.com