TECNOLOGÍA

OpenAI lanza una nueva versión de ChatGPT más rápida y con capacidad para ver y escuchar

El nuevo modelo, GPT-4o, comenzará a llegar a las aplicaciones de ChatGPT en las próximas semanas y la mayoría de sus funciones serán gratuitas

Ángel Jiménez de Luis EEUU

Actualizado Lunes, 13 mayo 2024 - 21:24

ChatGPT, sin duda la aplicación más popular de los conocidos como modelos largos de lenguaje (una herramienta de inteligencia artificial que permite a un programa entender y expresarse como lo haría un ser humano), será en las próximas semanas un poco más inteligente. OpenAI, la empresa detrás de esta inteligencia artificial acaba de anunciar una nueva versión del motor que la hace funcionar que por primera vez tendrá capacidad nativa para ver, hablar y escuchar.

Está nueva versión se conocerá como GPT-4o y será gratuita para todos los usuarios de la aplicación, que está disponible tanto para móviles como en versión web. Los usuarios de pago del servicio ChatGPT+ tendrán, eso sí, límites más altos en la extensión de las repuestas y acceso a GPT-4 Turbo, un modelo que es algo mejor en sus respuestas que GPT-4o. El nuevo modelo llegará a las distintas versiones a lo largo de las próximas semanas.

Hasta ahora, los usuarios de ChatGPT podían mantener una conversación de voz con esta inteligencia artificial. Los usuarios de pago también podían enviar una fotografía como parte de sus preguntas y pedir descripciones o que las tuviera en cuenta en sus respuestas.

Estas dos habilidades, sin embargo, dependían de módulos y herramientas adicionales que OpenAI, la empresa detrás de estas aplicaciones casi milagrosas, había integrado en la aplicación y este complejo sistema añadía latencia a la interacción. Al hablar con ChatGPT era común tener que esperar entre tres y seis segundos antes de escuchar una respuesta.

Ahora, gracias a GPT-4o, las respuestas serán mucho más rápidas e interactivas. La versión actual, por ejemplo, crea la sensación de estar charlando con el modelo porque transcribe las preguntas del usuario y sintetiza la voz en las respuestas. Con un modelo que incluye de forma nativa estas funciones, ahora es posible pedir a ChatGPT, por ejemplo, que pare de hablar en mitad de una respuesta o que ajuste el tono de las mismas.

Con acceso a la cámara del teléfono podrá también "ver" el mundo y utilizar aquello que vea para entender mejor una pregunta u ofrecer respuestas más personales. En varias demostraciones públicas, los responsables de OpenAI han mostrado cómo ChatGPT es capaz de entender una escena e incluso mantener conversaciones con otras instancias de la aplicación.

"El nuevo modo de voz (y vídeo) es la mejor interfaz informática que he usado. Se siente como la IA de las películas; y todavía me sorprende un poco que sea real. Llegar a los tiempos de respuesta y la expresividad a nivel humano es un cambio enorme", explica Sam Altman, CEO de OpenAI.

La compañía también ha anunciado la apertura de la tienda GPT Store a todos los usuarios de ChatGPT. Lanzada a principios de año, esta tienda permite crear y vender versiones optimizadas y personalizadas de ChatGPT pero hasta ahora sólo estaba disponible para los miembros del servicio de suscripción ChatGPT Plus.