Zyphra Cloud lleva la inferencia de IA abierta al terreno de AMD

Zyphra ha lanzado Zyphra Cloud, una nueva plataforma de Inteligencia Artificial construida sobre infraestructura AMD y pensada para llevar a producción modelos de pesos abiertos de gran tamaño. El movimiento sitúa a la compañía de San Francisco en una zona cada vez más disputada del mercado: la inferencia de modelos avanzados, donde ya no basta con entrenar bien, sino que hay que servir respuestas rápidas, estables y a un coste asumible.

La plataforma debuta con Zyphra Inference, un servicio de inferencia sin servidor que permite acceder a modelos como DeepSeek V3.2, Kimi K2.6 y GLM 5.1. Según la empresa, el servicio combina kernels personalizados, algoritmos para contexto largo y esquemas avanzados de paralelismo con el objetivo de atender cargas de trabajo de larga duración, como programación con agentes, investigación profunda y automatización de flujos complejos.

La novedad no llega sola. Zyphra se apoya en GPUs AMD Instinct MI355X desplegadas sobre la infraestructura de TensorWave, un proveedor cloud especializado en Inteligencia Artificial y HPC que trabaja exclusivamente con aceleradores AMD Instinct. Para AMD, el anuncio suma otra pieza a su estrategia de competir en el terreno de la IA acelerada, un mercado donde NVIDIA mantiene una posición dominante gracias a CUDA, su ecosistema de software y su fuerte presencia en centros de datos.

La inferencia se convierte en el nuevo campo de batalla

Durante los últimos años, gran parte de la conversación sobre Inteligencia Artificial se ha centrado en el entrenamiento de grandes modelos. Pero a medida que las empresas empiezan a integrar asistentes, agentes y sistemas de automatización en procesos reales, la inferencia gana peso. Cada consulta, cada sesión de agente y cada flujo de trabajo largo necesita memoria, ancho de banda y una arquitectura capaz de mantener el contexto sin penalizar demasiado la latencia.

Ahí es donde Zyphra quiere diferenciarse. La compañía sostiene que Zyphra Inference está diseñada para modelos grandes de tipo MoE y para cargas de trabajo con mucho contexto, donde las cachés KV y de prefijo pueden ocupar una parte importante de la memoria disponible. En estos escenarios, disponer de más memoria HBM por GPU puede reducir recomputaciones y mejorar el número de sesiones activas que un nodo puede mantener antes de degradar el rendimiento.

Las AMD Instinct MI355X encajan en ese argumento técnico. Según las especificaciones de AMD, cada GPU incluye 288 GB de memoria HBM3E y un ancho de banda de 8 TB/s, además de compatibilidad con formatos de baja precisión como MXFP8, MXFP6 y MXFP4. Estos formatos son relevantes para servir modelos con menor consumo de memoria y mayor rendimiento, aunque la calidad final depende del modelo, la cuantización y la implementación concreta.

Zyphra también ha publicado un análisis técnico en el que compara, para un caso concreto con Kimi K2.6, la memoria disponible para cachés en un nodo de 8 GPUs MI355X frente a un nodo de 8 GPUs B200. La compañía afirma que, bajo sus supuestos, un nodo MI355X puede mantener alrededor de 184 agentes activos con contexto de 256K, frente a unos 100 en el ejemplo con B200. Es una estimación de parte, no un benchmark independiente, pero ayuda a entender dónde quiere colocar la propuesta: menos espera, más sesiones residentes en memoria y mejor comportamiento en agentes de larga duración.

AMD gana visibilidad en el cloud de IA

El lanzamiento también tiene una lectura más amplia para AMD. La compañía lleva tiempo intentando reforzar su posición en infraestructura de Inteligencia Artificial con la familia Instinct y con ROCm, su plataforma de software para computación acelerada. El gran reto no está solo en vender chips potentes, sino en demostrar que existen pilas completas capaces de ejecutar modelos avanzados en producción.

Zyphra y TensorWave ayudan a construir ese relato. TensorWave aporta la infraestructura de cómputo basada en AMD, mientras Zyphra intenta cubrir la parte de software, modelos, kernels y servicio de inferencia. La combinación apunta a una tendencia clara: más proveedores intentan ofrecer alternativas al stack dominante de NVIDIA, no necesariamente para sustituirlo de golpe, sino para abrir opciones en coste, disponibilidad y soberanía tecnológica.

El uso de modelos de pesos abiertos añade otra capa al anuncio. Empresas y equipos de desarrollo buscan cada vez más alternativas que permitan mayor control sobre el modelo, sus despliegues y sus costes. DeepSeek, Kimi y GLM han ganado presencia en esa conversación, especialmente para quienes quieren construir productos sobre modelos potentes sin depender por completo de servicios cerrados.

Aun así, el mercado no se decidirá solo por las fichas técnicas. En inferencia de IA importan la estabilidad del servicio, los tiempos de respuesta reales, la compatibilidad con herramientas habituales, la gestión de cuotas, los precios, la documentación y la confianza en el proveedor. Zyphra parte con un mensaje técnico ambicioso, pero tendrá que demostrar su rendimiento en cargas de producción y con clientes que no prueban solo un modelo, sino una operación completa.

Una plataforma que quiere ir más allá de servir modelos

Zyphra Cloud nace con inferencia, pero la compañía ya adelanta que quiere ampliar la plataforma. Entre las próximas capacidades menciona servicios de post-entrenamiento distribuido, aprendizaje por refuerzo, fine-tuning, entornos aislados para agentes y desarrollo sobre CPUs AMD EPYC, además de acceso a clústeres dedicados de GPU e infraestructura bare-metal.

Ese punto es relevante porque muchos proyectos de IA ya no se limitan a llamar a un modelo mediante una API. Las empresas necesitan adaptar modelos, ejecutar agentes en entornos controlados, mantener datos sensibles bajo determinadas políticas y reservar capacidad para cargas previsibles. Si Zyphra consigue integrar inferencia, entrenamiento posterior y entornos de agente en una misma plataforma, podría competir en una zona donde los equipos técnicos valoran mucho el control operativo.

También hay una lectura de mercado. La Inteligencia Artificial generativa se está desplazando desde pruebas aisladas hacia sistemas que trabajan durante más tiempo, consultan herramientas, mantienen memoria de sesión y ejecutan tareas encadenadas. Ese tipo de uso castiga más la infraestructura que un simple chatbot con respuestas cortas. Por eso los proveedores están empezando a hablar menos de “modelos” en abstracto y más de plataformas completas para agentes, contexto largo y flujos persistentes.

Zyphra Cloud está disponible desde el 04/05/2026. La empresa no ha detallado en el anuncio público precios, acuerdos de nivel de servicio o límites concretos por modelo, aspectos que serán importantes para valorar su encaje en entornos empresariales. Por ahora, el lanzamiento sirve como una nueva señal de que la batalla por la IA no se libra solo en el entrenamiento de modelos, sino también en la capacidad de servirlos de forma eficiente, con memoria suficiente y sobre infraestructuras cada vez más especializadas.

Preguntas frecuentes

¿Qué es Zyphra Cloud?

Zyphra Cloud es una plataforma de Inteligencia Artificial orientada a desarrolladores, empresas y proveedores de IA que empieza con un servicio de inferencia sin servidor para modelos de pesos abiertos.

¿Qué modelos están disponibles en Zyphra Inference?

El lanzamiento menciona acceso a DeepSeek V3.2, Kimi K2.6 y GLM 5.1. La compañía también indica que trabajará para añadir nuevos modelos abiertos conforme estén disponibles.

¿Por qué son importantes las GPUs AMD Instinct MI355X?

Las AMD Instinct MI355X ofrecen 288 GB de memoria HBM3E por GPU y 8 TB/s de ancho de banda, dos características relevantes para cargas de inferencia con modelos grandes, contexto largo y muchas sesiones activas.

¿Zyphra Cloud servirá solo para inferencia?

No. Zyphra ha anunciado que la plataforma se ampliará con capacidades como fine-tuning, aprendizaje por refuerzo, entornos aislados para agentes, clústeres GPU dedicados e infraestructura bare-metal.

vía: zyphra

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

Las últimas novedades de tecnología y cloud

Suscríbete gratis al boletín de Revista Cloud. Cada semana la actualidad en tu buzón.

Suscripción boletín
×