Icono del sitio Alta Densidad

NVIDIA Maxine: Inteligencia artificial que corrige el contacto visual mientras se mira en cualquier dirección

NVIDIA Maxine, combina realidad aumentada e inteligencia artificial, y hace posible mantener el contacto visual con todos los participantes aunque leas un texto durante la reunión. Incluso es posible hablar en varios idiomas al mismo tiempo en reuniones, en tiempo real. Si bien estas capacidades eliminan la barrera del idioma, lo ayudan a concentrarse en otras tareas durante la reunión. La eliminación del ruido de fondo le permite asistir a reuniones desde diferentes lugares.

Para resumir, los modelos de Maxine crean efectos de alta calidad que se pueden lograr con equipos estándar de micrófono y cámara. NVIDIA Maxine tiene un conjunto de SDK de IA acelerados con GPU y microservicios nativos de la nube para implementar capacidades de IA que mejoran los efectos de audio, video y realidad aumentada en tiempo real. En este punto, cabe señalar que el paquete incluye funciones de inteligencia artificial aceleradas y optimizadas para la inferencia en tiempo real en las GPU. Por lo tanto, se puede lograr una baja latencia en efectos de audio, video y realidad aumentada.

NVIDIA Maxine ofrece servicios de decodificación, codificación y decodificación de video, inteligencia artificial conversacional, visión por computadora, transmisión de video y análisis. Además, Maxine puede ejecutarse en servidores locales o en la nube. El hecho de que Maxine tenga una estructura que pueda trabajar en la nube desde el primer paso también brinda flexibilidad a las empresas.

Un problema con grabar videos transmitidos en vivo en casa para uso profesional, e incluso surge en videollamadas simples, es que muchas personas se sienten incómodas mirando directamente a la cámara en lugar de un guión o a otras personas en la pantalla. Si bien hacerlo hace que el usuario se sienta incómodo, no hacerlo rompe el compromiso con el público.

Para ayudar a resolver este problema

NVIDIA ha estado desarrollando un tipo de tecnología «deepfake» que puede ajustar artificialmente los ojos de un sujeto para que parezca que están haciendo contacto con la cámara. “El nuevo efecto Eye Contact mueve los ojos del hablante para simular el contacto visual con la cámara, lo que se logra estimando y alineando la mirada”, explica NVIDIA. “Los ojos conservan su color natural y parpadean, e incluso hay una función de desconexión en caso de que mires demasiado lejos, para cambiar sin problemas entre ojos simulados y reales”.

Si bien solo se introdujo en Broadcast esta semana, la tecnología ha estado en desarrollo en NVIDIA durante el último año bajo el nombre de Maxine. Maxine es un conjunto de SDK de inteligencia artificial (IA) acelerados por GPU y microservicios nativos de la nube que están diseñados para mejorar los efectos de audio, video y realidad aumentada en tiempo real.

“Eye Contact es ideal para los creadores de contenido que buscan grabarse mientras leen sus notas o un guión, o evitar tener que mirar directamente a la cámara”. NVIDIA continúa. “Los presentadores de videoconferencias mirarán a los ojos de la persona con la que están hablando, mejorando el compromiso con sus audiencias”.

Los beneficios del contacto visual corregido por IA se mostraron en un video de demostración para Maxine a principios del año pasado:

Mientras se implementa en NVIDIA Broadcast, Eye Contact todavía está en versión beta y NVIDIA dice que está buscando trabajar con la comunidad de usuarios para mejorarlo. Dado que hay tantos tonos diferentes de colores de ojos y combinaciones de iluminación, será necesario trabajar en la IA con el tiempo para asegurarse de que sea confiable en todos los ámbitos.

Origen: El software de transmisión en vivo de NVIDIA puede simular digitalmente el contacto visual | petapixel


Salir de la versión móvil