4 marzo 2025
Noticias
3 minutos de lectura

Generación de audio con IA en smartphones: la apuesta de Arm y Stability AI

Noticias Cloud

La colaboración entre Arm y Stability AI ha permitido un avance significativo en la generación de audio mediante inteligencia artificial directamente en dispositivos móviles. Gracias a la optimización de la tecnología Arm KleidiAI, la conversión de texto a audio es ahora 30 veces más rápida, abriendo nuevas posibilidades en la creación de contenido y experiencias digitales sin necesidad de conexión a internet.

Generación de audio en segundos con Stable Audio Open

El modelo de generación de audio de Stability AI, Stable Audio Open, permite a los usuarios crear efectos de sonido, tonos de llamada o incluso pistas de música con solo escribir una descripción. Sin embargo, ejecutar este tipo de modelos en dispositivos móviles sin conexión a la nube representaba un desafío técnico considerable.

Inicialmente, la generación de un solo fragmento de audio tomaba más de cuatro minutos, lo que resultaba poco práctico para el usuario final. Gracias a la integración de KleidiAI, junto con las optimizaciones en XNNPack y ExecuTorch, se ha logrado reducir este tiempo a solo unos segundos en dispositivos móviles con procesadores Arm.

Esta mejora no solo hace que el uso de IA generativa en audio sea más accesible, sino que también permite que millones de dispositivos en el mundo aprovechen esta tecnología sin depender de servidores externos.

Cómo Arm y Stability AI han optimizado el rendimiento

Para alcanzar estos resultados, Stability AI trabajó junto a Arm en la reducción y optimización del modelo de IA para su ejecución en CPUs móviles. Esto incluyó:

Optimización de los parámetros del modelo para equilibrar rendimiento y calidad.
Uso de KleidiAI, que mejora la ejecución de IA en procesadores Arm sin requerir modificaciones adicionales por parte del desarrollador.
Ejecutar todo el proceso sin conexión a internet, asegurando mayor privacidad y menor consumo de energía.

«A medida que más empresas y creadores adoptan la IA generativa, es clave que estos modelos sean accesibles en cualquier plataforma. Arm ha sido un socio ideal para hacer esto posible», afirmó Prem Akkaraju, CEO de Stability AI.

Aplicaciones y ventajas de la IA generativa de audio

Esta innovación tiene el potencial de transformar sectores como:

✅ Creación de contenido – Generación de efectos de sonido personalizados para videos, redes sociales y juegos.
✅ Edición de video móvil – Integración rápida de audio sin necesidad de descargar clips de internet.
✅ Entretenimiento y personalización – Creación de tonos de llamada o alarmas personalizadas en segundos.
✅ Accesibilidad y educación – Producción de narraciones automáticas o asistentes de audio mejorados.

Demostraciones en MWC 2025

En el Mobile World Congress 2025, Arm y Stability AI presentan su solución en el stand de Arm en Hall 2 Stand I60. La demostración incluye dispositivos como el vivo X200 Series con el procesador MediaTek Dimensity 9400 basado en la arquitectura Armv9.

Esta colaboración es solo el inicio de una nueva era en la IA generativa ejecutada en dispositivos móviles, permitiendo experiencias más rápidas, privadas y accesibles. Con futuras optimizaciones, Stability AI y Arm planean extender esta tecnología a imágenes, video y modelos 3D, redefiniendo la creación digital directamente desde los smartphones.

vía: ARM