Broadcom ha anunciado Thor Ultra, la que define como la primera tarjeta de red Ethernet (NIC) de 800G orientada a IA del mercado. El lanzamiento apunta a un objetivo claro: interconectar cientos de miles de XPUs (GPUs, CPUs y aceleradores afines) para entrenar e inferir con modelos de billones de parámetros en redes Ethernet abiertas y estandarizadas. La clave estratégica es su cumplimiento integral de la especificación del Ultra Ethernet Consortium (UEC), que moderniza RDMA para superárboles de conmutación a gran escala y evita el encierro en soluciones propietarias.
Qué resuelve Thor Ultra: RDMA “rehecho” para IA masiva
En redes de IA a gran escala, el RDMA clásico arrastra limitaciones: ausencia de multipathing efectivo, entrega estrictamente en orden, retransmisión poco granular y congestión difícil de escalar. Thor Ultra introduce, conforme a UEC, un conjunto de innovaciones para solventarlo:
- Multipathing a nivel de paquete para equilibrar carga en todo el tejido de red.
- Entrega fuera de orden directamente a la memoria de la XPU, que maximiza la utilización de la red sin bloquear flujos por reordenación.
- Retransmisión selectiva, que evita repetir bloques sanos y acelera Job Completion Time (JCT).
- Control de congestión programable con algoritmos en receptor y en emisor, para domar picos y microcongestión sin penalizar latencia.
El resultado práctico es mayor rendimiento sostenido en clusters de IA y menos dependencia de pilas propietarias: al ser UEC-compliant, el cliente puede combinar Thor Ultra con cualquier XPU, óptica o switch compatible, desde la capa top-of-rack hasta spines de muy alta densidad.
Hardware y offloads: 800G con seguridad y latencia bajo control
Thor Ultra llega en formatos estándar PCIe CEM y OCP 3.0, con host interface PCI Express Gen6 x16, y emplea SerDes PAM4 de 200G o 100G con soporte para cobre pasivo de largo alcance. Broadcom remarca una BER (Bit Error Rate) líder en sus SerDes, lo que reduce flaps de enlace y recorta JCT en trabajos de entrenamiento e inferencia.
En seguridad y eficiencia, la NIC incorpora:
- Cifrado/descifrado a línea con offload PSP, descargando a la XPU tareas criptográficas intensivas.
- Arranque seguro con firmware firmado y atestación del dispositivo.
- Canal de congestión programable, packet trimming y señalización de congestión (CSIG) para telemetría y corrección en tiempo real.
Ecosistema abierto: Tomahawk, Jericho y Scale-Up Ethernet
Thor Ultra se integra en el catálogo Ethernet para IA de Broadcom: Tomahawk 6, Tomahawk 6-Davisson, Tomahawk Ultra, Jericho 4 y Scale-Up Ethernet (SUE). La combinación permite tejidos Ethernet a 800G con telemetría avanzada, visibilidad extremo a extremo y compatibilidad con CSIG, tanto en arquitecturas Endpoint-Scheduled Ethernet como Fabric-Scheduled Ethernet definidas por UEC. Para el cliente final, esto se traduce en libertad de elección (NICs, switches, ópticas) y en una curva de adopción menos dependiente de proveedores verticales.
Por qué ahora: escalar IA sin cambiar de “idioma” de red
El auge de redes RoCE/UEC sobre Ethernet responde a dos presiones simultáneas: escasez de componentes en soluciones cerradas y necesidad de estandarizar operaciones a medida que los clústeres crecen de decenas a cientos de miles de nodos. Con Thor Ultra, Broadcom empuja la tesis de que Ethernet puede sostener IA de nueva generación si RDMA se adapta: multipathing fino, reordenación inteligente y control de congestión distribuido. Además, el soporte para DACs de largo alcance, formatos OCP y PCIe Gen6 simplifica integración en racks existentes y renovaciones graduales.
Casos de uso: de pre-fill masivo a decoding distribuido
Los cuellos de botella de red cambian según la fase del ciclo de IA:
- En entrenamiento y pre-fill, el tejido exige ancho de banda sostenido y colapso mínimo por reordenación; el multipathing por paquete evita “puntos calientes”.
- En inferencia y decoding largos, la retransmisión selectiva y la CSIG reducen cola y estabilizan latencias p99, clave para SLA de agentes y servicios de tiempo casi real.
- En entornos multi-tenant, la seguridad a línea, el arranque verificado y la atestación permiten segmentación fuerte y auditoría sin sacrificar throughput.
Disponibilidad y próximos pasos
Thor Ultra ya se encuentra en sampling para clientes y socios del ecosistema. La compañía posiciona esta NIC como pieza central de sus fábricas de IA basadas en Ethernet, con una hoja de ruta que prioriza interoperabilidad UEC, telemetría granular y reducción de JCT en trabajos a gran escala.
Ficha técnica (resumen)
- Velocidad: 800G Ethernet.
- Estándares: Cumplimiento total con UEC; RDMA con multipathing por paquete, entrega fuera de orden, retransmisión selectiva y congestión programable (sender/receiver).
- Interfaz host: PCIe Gen6 x16.
- Form factor: PCIe CEM y OCP 3.0.
- SerDes: PAM4 200G / 100G con long-reach y bajo BER; DAC pasivo soportado.
- Seguridad: cifrado/descifrado a línea con offload PSP, secure boot, firmware firmado, atestación.
- Telemetría y control: pipeline de congestión programable, packet trimming, CSIG.
- Ecosistema: interoperable con Tomahawk 5/6, Tomahawk Ultra, Jericho 4, SUE y conmutadores UEC-compliant.
Claves para arquitectos de red y platform teams
- Diseño del fabric: planificar ECMP profundo aprovechando el multipathing a nivel de paquete y la colocación fuera de orden para evitar colas por reordenación en spines y superspines.
- SLA de inferencia: combinar retransmisión selectiva, CSIG y algoritmos de congestión programables para estabilizar latencias p95/p99 en workloads mixtos (pre-fill + decoding).
- Seguridad por defecto: activar arranque verificado, atestación y cifrado a línea para aislar tenants y entornos regulados sin impacto sustancial en throughput.
- Estrategia de interoperabilidad: validar ópticas, switches y XPUs de distintos proveedores bajo el paraguas UEC, priorizando observabilidad y convergencia ante fallos.
La lectura final: con Thor Ultra, Broadcom busca fijar el listón de la NIC Ethernet para IA en 800G y, sobre todo, acelerar la transición a tejidos abiertos UEC. Si Ethernet quería ser la red nativa de la IA a gran escala, necesitaba RDMA de nueva generación; esta es la apuesta de diseño que pone la NIC en el centro del fabric para reducir JCT, contener costes y evitar el lock-in.