ChatGPT ahora mira, escucha y habla

5 Mins Read

104Vistas

27 septiembre, 2023 10:16 am

ChatGPT de OpenAI presentó funcionalidades de voz e imagen, que proporcionan una forma más intuitiva y atractiva para que los usuarios interactúen con el chatbot de IA. Estas nuevas funciones abren un mundo de posibilidades para la Inteligencia Artificial, desde tener conversaciones naturales con los usuarios hasta ayudarlos con tareas visuales como analizar imágenes o dibujos.

ChatGPT ahora permite a los usuarios tener conversaciones de voz con él. Este es un importante paso adelante para el chatbot, ya que permite interacciones más naturales y fluidas. Los usuarios ahora pueden simplemente hablar con la IA y este responderá en tiempo real.

Para iniciar una conversación de voz con ChatGPT, los usuarios simplemente necesitan habilitar la función en la Configuración de la aplicación móvil. Una vez habilitado, los usuarios pueden seleccionar una de cinco voces diferentes para ChatGPT.

ChatGPT utiliza un modelo de conversión de texto a voz de última generación para generar audio realista. También utiliza el sistema de reconocimiento de voz Whisper de OpenAI para transcribir las palabras de los usuarios en texto.

OpenAI ha trabajado estrechamente con actores de doblaje profesionales para garantizar que la voz de la IA suene natural y atractiva. La empresa también está trabajando activamente para mitigar los riesgos potenciales asociados con las conversaciones de voz, como la suplantación de identidad y el fraude.

Más allá de la voz: ver para creer

ChatGPT ahora también puede comprender y discutir imágenes. Esto significa que los usuarios pueden compartir imágenes con la IA y hacerle preguntas sobre ellas. También puede ayudar a los usuarios a analizar gráficos y tablas.

Para iniciar una conversación sobre una imagen con ChatGPT, los usuarios simplemente deben tocar el botón de foto o el botón más en la aplicación móvil. La IA puede entonces discutir varias imágenes al mismo tiempo. Los usuarios también pueden utilizar la herramienta de dibujo para resaltar partes específicas de una imagen.

ChatGPT utiliza un modelo multimodal GPT-3.5 y GPT-4 para comprender imágenes. Este modelo aplica el razonamiento lingüístico a una variedad de imágenes, incluidas fotografías, capturas de pantalla y documentos.

OpenAI reconoce que todavía existen algunos desafíos asociados con la comprensión de imágenes, como las malas interpretaciones. Sin embargo, la empresa ha realizado pruebas exhaustivas para garantizar que la IA utilice esta función de forma responsable.

OpenAI reconoce que la IA aún está en desarrollo y tiene algunas limitaciones. Por ejemplo, el modelo puede tener dificultades con escrituras no romanas. Por lo tanto, se recomienda a los usuarios que no hablan inglés que utilicen ChatGPT con precaución.

Además, ChatGPT no está diseñado para usarse en situaciones de alto riesgo sin verificación. El modelo es más adecuado para temas especializados, como servicio al cliente, educación y entretenimiento.

Disponibilidad

OpenAI implementará funciones de voz e imagen para ChatGPT para usuarios Plus y Enterprise en las próximas dos semanas. Estas funciones estarán disponibles en iOS y Android a través de la configuración, y se podrá acceder a las imágenes en todas las plataformas.

OpenAI tiene planes de ampliar estas capacidades a otros grupos de usuarios, incluidos los desarrolladores, en un futuro próximo.

¿Qué podemos esperar?

La incorporación de funciones de voz e imagen es un gran paso adelante para el chatbot de IA. Estas funciones hacen que sea más fácil de usar y atractivo, y abren un mundo de nuevas posibilidades para su uso.

En el futuro, podemos esperar que ChatGPT se utilice de diversas formas nuevas e innovadoras. Por ejemplo, podría utilizarse para desarrollar nuevas herramientas educativas que ayuden a los estudiantes a aprender visualmente. ChatGPT también podría utilizarse para desarrollar nuevas herramientas de servicio al cliente que proporcionen interacciones más naturales y atractivas.

OpenAI se compromete a desarrollar ChatGPT de forma responsable. La empresa está trabajando para mitigar los riesgos potenciales asociados con las funcionalidades de voz e imagen, como la suplantación de identidad y el fraude. OpenAI también está trabajando para garantizar que ChatGPT se utilice de manera justa e imparcial.

En general, la incorporación de funcionalidades de voz e imagen a ChatGPT es un avance positivo. Estas funciones hacen que ChatGPT sea más fácil de usar y atractivo, y abren un mundo de nuevas posibilidades para su uso. OpenAI se compromete a desarrollar ChatGPT de manera responsable y podemos esperar que ChatGPT se utilice de diversas formas nuevas e innovadoras en el futuro.

Desafíos y limitaciones

A pesar de las muchas aplicaciones potenciales de las funcionalidades de voz e imagen en ChatGPT, también existen algunos desafíos y limitaciones que deben abordarse.

Un desafío es que los sistemas de reconocimiento de voz e imagen pueden ser inexactos, especialmente en ambientes ruidosos o mal iluminados. Esto podría provocar que ChatGPT malinterprete las solicitudes de los usuarios o proporcione información incorrecta.

Otro desafío es que ChatGPT aún está en desarrollo y es posible que no pueda comprender o responder correctamente a todas las indicaciones o preguntas. Además, ChatGPT puede estar sesgado en sus respuestas, lo que refleja los sesgos presentes en los datos con los que fue entrenado.

Origen: Gizchina

Relacionado

Etiquetado:ChatGPT

Umbrij: el malware que roba correos de Gmail sin necesitar tu contraseña

ToddyCat encuentra una nueva forma de espiar cuentas corporativas: Umbrij ya no roba contraseñas, secuestra sesiones abiertas del navegador Un grupo de ciberespionaje encuentra una grieta nueva en la seguridad corporativa. No necesita robar contraseñas. Le basta con que dejes tu sesión de Gmail abierta en el navegador. Kaspersky documenta esta semana una técnica bautizada...

Alta Densidad

15 julio, 2026

Trabajar en Venezuela: el ranking 2026 que revela dónde sí se puede hacer carrera hoy

En un mercado laboral golpeado por la migración de talento, la inflación y la presión por retener personal capacitado, algunas empresas en Venezuela logran destacar por un factor cada vez más difícil de conseguir: la confianza de sus propios trabajadores. Esa es la principal conclusión que deja el nuevo ranking de Los Mejores Lugares para...

Alta Densidad

24 mayo, 2026

Waze se vuelve más inteligente gracias a Gemini: así funciona la nueva actualización con IA

Waze da un salto grande con Gemini. La app de navegación de Google suma nuevas funciones basadas en inteligencia artificial. El motor detrás de estos cambios es Gemini, el asistente de IA de Google. La actualización llega en un momento clave: Waze busca competir mejor con Apple Maps y otras apps rivales. Waze ahora sugiere...

Alta Densidad

15 julio, 2026

Huawei Nova 16 Ultra: cámara de 200 MP, batería de 7.000 mAh y conectividad satelital en el nuevo ...

Huawei mueve otra ficha en el mercado móvil con el lanzamiento del Huawei Nova 16 Ultra, un smartphone que eleva el nivel de la familia Nova y se acerca peligrosamente a la gama alta. El dispositivo llega junto al Nova 16 Pro y apuesta por una combinación poco habitual en su segmento: cámara principal de...

Alta Densidad

4 junio, 2026

Argamal: el nuevo malware oculto en juegos para adultos que roba datos y toma control del PC

Un nuevo malware denominado Argamal se propaga de forma silenciosa dentro de juegos para adultos descargados desde fuentes no oficiales. Es una campaña global detectada en juegos hentai distribuidos por torrents y sitios de descarga. La campaña es detectada en varios países y ya tiene presencia confirmada en América Latina, con casos identificados en Brasil....

Alta Densidad

24 junio, 2026

Spray nasal revierte la pérdida de memoria en ratones ancianos y abre nuevas esperanzas contra el e...

La posibilidad de frenar el deterioro cerebral asociado con la edad vuelve a captar atención mundial. Un grupo de investigadores de Texas A&M University desarrolla un spray nasal experimental que logra mejorar la memoria y reducir señales de envejecimiento cerebral en ratones ancianos. El hallazgo todavía está lejos de convertirse en un tratamiento humano, pero...

Alta Densidad

27 mayo, 2026

Digitel entrega 2 GB gratis, minutos y SMS a clientes de La Guaira tras el sismo: quiénes recibirá...

Los clientes de Digitel en el estado La Guaira comienzan a recibir una nueva ayuda de conectividad como parte de la fase de recuperación tras el terremoto del pasado 24 de junio. La operadora anunció la asignación automática de un paquete de 2 GB de datos, 200 minutos y 200 SMS, además de mejoras técnicas...

Alta Densidad

17 julio, 2026

DuckDuckGo desafía a YouTube con un bloqueador de anuncios integrado: descárgalo gratis aquí

Los usuarios que buscan ver videos de YouTube sin interrupciones tienen una nueva alternativa. El navegador de DuckDuckGo incorpora desde ahora un bloqueador de anuncios capaz de omitir la mayoría de los anuncios que aparecen antes y durante la reproducción de los videos en YouTube. La novedad llega en un momento en el que Google...

Alta Densidad

8 julio, 2026

Fortnite regresa a la App Store y sacude otra vez al ecosistema de Apple

El videojuego Fortnite vuelve a estar disponible en la App Store de Apple en la mayor parte del mundo. El retorno marca uno de los movimientos más relevantes en la industria móvil de los últimos años. No es solo el regreso de un juego popular. Es la reactivación de una disputa que redefine cómo se...

Alta Densidad

20 mayo, 2026