ChatGPT de OpenAI presentó funcionalidades de voz e imagen, que proporcionan una forma más intuitiva y atractiva para que los usuarios interactúen con el chatbot de IA. Estas nuevas funciones abren un mundo de posibilidades para la Inteligencia Artificial, desde tener conversaciones naturales con los usuarios hasta ayudarlos con tareas visuales como analizar imágenes o dibujos.

ChatGPT ahora permite a los usuarios tener conversaciones de voz con él. Este es un importante paso adelante para el chatbot, ya que permite interacciones más naturales y fluidas. Los usuarios ahora pueden simplemente hablar con la IA y este responderá en tiempo real.
Para iniciar una conversación de voz con ChatGPT, los usuarios simplemente necesitan habilitar la función en la Configuración de la aplicación móvil. Una vez habilitado, los usuarios pueden seleccionar una de cinco voces diferentes para ChatGPT.
ChatGPT utiliza un modelo de conversión de texto a voz de última generación para generar audio realista. También utiliza el sistema de reconocimiento de voz Whisper de OpenAI para transcribir las palabras de los usuarios en texto.
OpenAI ha trabajado estrechamente con actores de doblaje profesionales para garantizar que la voz de la IA suene natural y atractiva. La empresa también está trabajando activamente para mitigar los riesgos potenciales asociados con las conversaciones de voz, como la suplantación de identidad y el fraude.
Más allá de la voz: ver para creer
ChatGPT ahora también puede comprender y discutir imágenes. Esto significa que los usuarios pueden compartir imágenes con la IA y hacerle preguntas sobre ellas. También puede ayudar a los usuarios a analizar gráficos y tablas.
Para iniciar una conversación sobre una imagen con ChatGPT, los usuarios simplemente deben tocar el botón de foto o el botón más en la aplicación móvil. La IA puede entonces discutir varias imágenes al mismo tiempo. Los usuarios también pueden utilizar la herramienta de dibujo para resaltar partes específicas de una imagen.
ChatGPT utiliza un modelo multimodal GPT-3.5 y GPT-4 para comprender imágenes. Este modelo aplica el razonamiento lingüístico a una variedad de imágenes, incluidas fotografías, capturas de pantalla y documentos.
OpenAI reconoce que todavía existen algunos desafíos asociados con la comprensión de imágenes, como las malas interpretaciones. Sin embargo, la empresa ha realizado pruebas exhaustivas para garantizar que la IA utilice esta función de forma responsable.
OpenAI reconoce que la IA aún está en desarrollo y tiene algunas limitaciones. Por ejemplo, el modelo puede tener dificultades con escrituras no romanas. Por lo tanto, se recomienda a los usuarios que no hablan inglés que utilicen ChatGPT con precaución.
Además, ChatGPT no está diseñado para usarse en situaciones de alto riesgo sin verificación. El modelo es más adecuado para temas especializados, como servicio al cliente, educación y entretenimiento.
Disponibilidad
OpenAI implementará funciones de voz e imagen para ChatGPT para usuarios Plus y Enterprise en las próximas dos semanas. Estas funciones estarán disponibles en iOS y Android a través de la configuración, y se podrá acceder a las imágenes en todas las plataformas.
OpenAI tiene planes de ampliar estas capacidades a otros grupos de usuarios, incluidos los desarrolladores, en un futuro próximo.
¿Qué podemos esperar?
La incorporación de funciones de voz e imagen es un gran paso adelante para el chatbot de IA. Estas funciones hacen que sea más fácil de usar y atractivo, y abren un mundo de nuevas posibilidades para su uso.
En el futuro, podemos esperar que ChatGPT se utilice de diversas formas nuevas e innovadoras. Por ejemplo, podría utilizarse para desarrollar nuevas herramientas educativas que ayuden a los estudiantes a aprender visualmente. ChatGPT también podría utilizarse para desarrollar nuevas herramientas de servicio al cliente que proporcionen interacciones más naturales y atractivas.
OpenAI se compromete a desarrollar ChatGPT de forma responsable. La empresa está trabajando para mitigar los riesgos potenciales asociados con las funcionalidades de voz e imagen, como la suplantación de identidad y el fraude. OpenAI también está trabajando para garantizar que ChatGPT se utilice de manera justa e imparcial.
En general, la incorporación de funcionalidades de voz e imagen a ChatGPT es un avance positivo. Estas funciones hacen que ChatGPT sea más fácil de usar y atractivo, y abren un mundo de nuevas posibilidades para su uso. OpenAI se compromete a desarrollar ChatGPT de manera responsable y podemos esperar que ChatGPT se utilice de diversas formas nuevas e innovadoras en el futuro.
Desafíos y limitaciones
A pesar de las muchas aplicaciones potenciales de las funcionalidades de voz e imagen en ChatGPT, también existen algunos desafíos y limitaciones que deben abordarse.
Un desafío es que los sistemas de reconocimiento de voz e imagen pueden ser inexactos, especialmente en ambientes ruidosos o mal iluminados. Esto podría provocar que ChatGPT malinterprete las solicitudes de los usuarios o proporcione información incorrecta.
Otro desafío es que ChatGPT aún está en desarrollo y es posible que no pueda comprender o responder correctamente a todas las indicaciones o preguntas. Además, ChatGPT puede estar sesgado en sus respuestas, lo que refleja los sesgos presentes en los datos con los que fue entrenado.
OpenAI se compromete a desarrollar ChatGPT de forma responsable. La empresa está trabajando para mitigar los riesgos potenciales asociados con las funcionalidades de voz e imagen, como la suplantación de identidad y el fraude. OpenAI también está trabajando para garantizar que ChatGPT se utilice de manera justa e imparcial.
Origen: Gizchina