15 noviembre 2021
Empresas
3 minutos de lectura

NVIDIA anuncia una plataforma para crear avatares de IA

Angel

Recientemente NVIDIA ha presentado la plataforma Omniverse Avatar que permitirá la creación de avatares interactivos por medio de inteligencia artificial. Para ello, esta plataforma conecta las tecnologías de la compañía en IA de habla, visión de computación, comprensión de idiomas naturales, motores de recomendación y tecnologías de simulación. El resultado son personajes interactivos con gráficos 3D que pueden ver, hablar y hasta conversar sobre una amplia gama de temas.

Omniverse Avatar abre la puerta a la creación de asistentes de IA que pueden aprender de los humanos y son fácilmente personalizables para cualquier industria. Estos podrían ayudar con los miles de millones de interacciones diarias de servicio al cliente (pedidos de restaurantes, transacciones bancarias, citas personales y reservas, y más), lo que genera mayores oportunidades comerciales y mejorar la satisfacción del cliente.

Omniverse Avatar es parte de NVIDIA Omniverse™, una plataforma de colaboración y simulación de mundo virtual para flujos de trabajo 3D. En su discurso de Apertura en NVIDIA GTC, Huang compartió dos ejemplos de Omniverse Avatar: Proyecto Tokkio para la atención al cliente, NVIDIA DRIVE Concierge para servicios inteligentes siempre activos en vehículos y Proyecto Maxine para las videoconferencias.

En la primera demostración del Proyecto Tokkio, Huang mostró a sus colegas participando en una conversación en tiempo real con un avatar creado como una réplica de juguete de sí mismo, mientras conversaban sobre temas como el diagnóstico de Biología y la Ciencia del Clima.

En la siguiente demostración del Proyecto Tokkio, destacó un avatar de servicio al cliente en un quiosco de restaurante, capaz de ver, conversar y entender a dos clientes mientras pedían hamburguesas vegetarianas, papas fritas y bebidas. Las demostraciones fueron impulsadas por el software de IA de NVIDIA y Megatron-Turing NLG 530B, el modelo de lenguaje generativo de NVIDIA, que actualmente es el más grande del mundo.

En una demostración de la plataforma DRIVE Concierge AI, un asistente digital en la pantalla del tablero central ayuda al conductor a seleccionar el mejor modo de conducción para llegar a su destino a tiempo, y luego sigue su solicitud de establecer un recordatorio una vez que el alcance del automóvil desciende por debajo de las 100 millas.

Por separado, Huang mostró la capacidad del Proyecto Maxine para agregar funciones de video y audio de última generación a las aplicaciones de colaboración virtual y creación de contenido. Un hablante de inglés se muestra en una videollamada en un café ruidoso, pero se puede escuchar claramente sin ruido de fondo. Mientras habla, sus palabras se transcriben y traducen en tiempo real al francés, alemán y español con su misma voz y entonación.

Elementos Clave de Omniverse Avatar.

Omniverse Avatar utiliza elementos de la IA de habla, visión de computación, comprensión de idiomas naturales, motores de recomendación, animación facial y gráficos entregados a través de las siguientes tecnologías:

● Su reconocimiento de voz se proporciona a través de NVIDIA Riva, un conjunto de desarrollo de software que reconoce el habla en varios idiomas. Riva también se utiliza para generar respuestas de voz similares a las humanas utilizando capacidades de texto a voz.

● Su comprensión del lenguaje natural se basa en el modelo de grande de idioma Megatron 530B de NVIDIA que puede reconocer, comprender y generar lenguaje humano. Megatron 530B es un modelo previamente entrenado que puede, con poco o ningún entrenamiento, completar oraciones, responder preguntas de un gran dominio de temas, resumir historias largas y complejas, traducir a otros idiomas y manejar muchos dominios para los que no está entrenado específicamente.

● Su motor de recomendación es proporcionado por NVIDIA Merlin™, un framework que permite a las empresas desarrollar sistemas de recomendación de deep learning capaces de manejar grandes cantidades de datos para hacer sugerencias más inteligentes.

● Sus capacidades de percepción están habilitadas por NVIDIA Metropolis, un framework de visión de computación para análisis de videos.

● Su animación de avatar está impulsada por tecnologías de renderizado, de animación facial 2D y 3D impulsadas por IA, NVIDIA Video2Face y Audio2Face™.

Estas tecnologías se componen en una aplicación y se procesan en tiempo real utilizando el Framework NVIDIA Unified Compute.