OpenAI ha comenzado a desplegar una de las características más esperadas y revolucionarias de ChatGPT: el nuevo modo de voz. Esta innovadora función se asemeja a la interacción con máquinas mostrada en la película "Her" de 2014, haciendo realidad una conversación natural con la inteligencia artificial.
En mayo de este año, OpenAI sorprendió al anunciar el modo de voz para ChatGPT, inspirado en la película mencionada. La empresa, dirigida por Sam Altman, prometió que la función estaría disponible en “unas pocas semanas”. Sin embargo, el lanzamiento se retrasó un mes para resolver problemas de seguridad.
El nuevo modo de voz ya está disponible, aunque inicialmente en una versión alfa para usuarios de ChatGPT Plus. Este despliegue se extenderá hasta agosto, momento en el que todos los suscriptores de este plan tendrán acceso completo a la función.
Para los usuarios seleccionados para probar el nuevo modo de voz, recibirán una notificación en la aplicación. Una vez activado, podrán interactuar con ChatGPT, ahora impulsado por GPT-4o, de manera más natural. Una de las mejoras significativas sobre el modo de voz anterior es la capacidad de mantener conversaciones fluidas, incluyendo la posibilidad de interrumpir y tener interacciones emocionales.
Desde un punto de vista técnico, el modo de voz anterior convertía la voz en texto, procesaba el texto con GPT-4 y luego transformaba la respuesta en voz. Con GPT-4o, el procesamiento es directo, lo que resulta en una latencia extremadamente baja.
El nuevo modo de voz no está limitado al inglés. OpenAI ha probado esta función en más de 45 idiomas. Sin embargo, actualmente solo están disponibles cuatro voces (Juniper, Breeze, Cove y Ember). La voz Sky, similar a la de Scarlett Johansson, no estará disponible debido a que Johansson rechazó una oferta para colaborar en el proyecto tras expresar su descontento.
En demostraciones anteriores, ChatGPT ayudó a niños con sus tareas y describió el contenido de una habitación mientras los empleados de OpenAI mantenían conversaciones fluidas. Estas capacidades, potenciadas por las funciones de visión de GPT-4o, se introducirán en una fecha posterior.
Page loaded in 37.96 ms