F5 lleva BIG-IP Next a los NVIDIA BlueField-4 DPU para “fábricas de IA” a gigascala: más rendimiento, menos latencia y seguridad zero-trust

F5 (NASDAQ: FFIV) anunció la ampliación de BIG-IP Next for Kubernetes sobre los nuevos NVIDIA BlueField-4 DPU, con la mira puesta en las fábricas de IA a gigascala. La combinación promete hasta 800 Gb/s de red multi-tenant con control inteligente, mejoras de seguridad zero-trust y aceleración de cargas LLM (inferencia) que se traducen —según F5— en +30 % de capacidad de generación de tokens manteniendo expectativas “cloud-grade”.

El movimiento encaja en la tendencia de llevar funciones de red y seguridad al DPU (data processing unit) para liberar las GPU de trabajo ajeno a la IA y reducir latencias p99. En contextos con ventanas de contexto enormes, agentes autónomos y tráfico multi-modelo, cada microsegundo cuenta.


Qué aporta la integración F5 + BlueField-4 (en corto)

  • Rendimiento, multi-tenancy y seguridad: F5 cifra en +30 % la mejora en capacidad de token al descargar data path y controles al DPU, preservando aislamiento entre inquilinos a hasta 800 Gb/s.
  • Inferencia LLM optimizada: integración con NVIDIA Dynamo y KV Cache Manager para recortar latencia, aprovechar mejor la GPU, permitir serving desagregado y adaptarse a intensidad de memoria variable (cambios en prompt y contexto).
  • Enrutado inteligente multi-modelo: vía NVIDIA NIM (microservicios), el control plane de F5 puede dirigir tráfico entre varios modelos para buscar mejor TTFT (Time to First Token), coste o calidad.
  • Gobernanza granular de tokens: métricas y visibilidad para cumplimiento, contabilidad y riesgo, clave en entornos multi-equipo.
  • MCP a escala y seguro: protección reforzada para Model Context Protocol, de modo que los agents y herramientas que dependen de MCP mantengan velocidad sin abrir huecos de seguridad.
  • Zero-trust en VM y bare-metal: apoyado en NVIDIA DOCA Platform Framework (DPF), con segmentación de inquilinos y redes de IA distribuidas seguras por diseño.
  • Programabilidad: F5 iRules aplicadas a flujos de IA para crear políticas, rate-limits o maniobras de seguridad a medida.

Traducción práctica: El DPU acelera y aísla la vía rápida de datos (cifrado, telemetry, segmentación, WAF/L4-7, etc.), y F5 añade observabilidad y control para que el scheduler de IA sirva más tokens con menos cola.


Por qué importa para cargas de IA modernas

1) Más tokens/segundo y mejor TTFT

  • KV-cache caliente y gestionada → menos cache misses, menos hops a memoria, GPU más ocupada en cómputo real.
  • DPU offload → menos context switch en CPU del host, menos jitter y p99 más predecible.

2) Eficiencia en clusters heterogéneos

  • Con NIM, el control plane puede balancear entre modelos/versions (coste/latencia/calidad) sin que el cliente lo perciba.
  • Útil para canarias, A/B, fallback por región/SLAs o graceful degradation en picos.

3) Seguridad y multi-tenancy sin penalizar rendimiento

  • DOCA/DPF permite micro-segmentación de tenants y servicios de IA (por proyecto, equipo o cliente) con cifrado y políticas cerca del cable.
  • Menos superficie expuesta en el host y cumplimiento más sencillo en entornos regulados.

4) Gobernanza de uso

  • Token accounting por modelo/tenant/cola → base para chargeback/showback, límite de presupuesto, políticas de prioridad y detección de abuso.

Dónde encaja en la pila de una “AI factory”

Capa física/IO: BlueField-4 DPU (aceleración de red, cifrado, telemetry, DOCA).
Capa de red/seguridad L4-L7: F5 BIG-IP Next for Kubernetes (service proxy, WAF/API, balanceo, iRules).
Capa de serving y orquestación de modelos: NVIDIA NIM + Dynamo + KV Cache Manager (runtimes, schedulers, gestión de memoria/estado).
Capa de aplicación: gateways de IA, routers multimodelo, MCP, agents.

La propuesta: desagregar el serving (estado, caché, control) del cálculo en GPU y empujar red/seguridad al DPU para escalar por bloques (más nodos, mismos SLOs).


Consideraciones de diseño (si estás planificando adopción)

  • Topologías: valida throughput efectivo por nodo (hasta 800 Gb/s es techo de interfaz; mira goodput con cifrado, telemetría y políticas activas).
  • SLOs: define TTFT, tokens/s, p95/p99 y error budgets por cola/modelo/tenant; activa autoscaling sobre métricas reales (cola, utilization, cache hit).
  • Políticas e iRules: rate-limit por tenant, token caps, fallback de modelo, circuit breaking hacia rutas saturadas.
  • Observabilidad: trazabilidad L7 + token accounting + GPU utilization; alerta por degradación de KV-cache o deriva de latencia.
  • Seguridad: DOCA/DPF para micro-segmentación, mTLS entre microservicios, WAF/API security en endpoints públicos, y políticas MCP endurecidas.
  • Coste: compara tokens/$ en GPU liberada vs. coste de DPU y la huella de F5; mide ahorro por consolidación de funciones de red/seguridad.

Caso de uso típico

  • Inferencia multi-modelo (grandes ventanas de contexto) con SLO de TTFT bajo.
  • Tráfico multi-tenant (equipos/clientes) con límite de presupuesto y prioridades.
  • Cumplimiento (contabilidad de tokens, rastro de decisiones, policies auditables).
  • Despliegues híbridos: VM y bare-metal en on-prem/colo con Zero Trust consistente.

La letra pequeña

F5 enmarca el anuncio como expansión de su solución Kubernetes sobre BlueField-4; los beneficios citados (como +30 % de capacidad de token) dependen de diseño, carga y tuning. Como toda nota de producto, incluye declaraciones prospectivas sujetas a integración y resultados variables por entorno.


En resumen

F5 y NVIDIA empujan la red y la seguridad al DPU y desagregan el serving para que las GPU hagan IA, no packet-pushing. Con BIG-IP Next for Kubernetes sobre BlueField-4, las organizaciones pueden servir más tokens, antes y con menos jitter, mantener aislamiento de inquilinos y gobernar el uso, un combo clave para la próxima ola de fábricas de IA y sistemas agénticos.

vía: f5.com

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×