ChatGPT ahora tiene el poder de «ver, oír y hablar»

chat-gpt

Si alguna vez has pensado en pedirle a tu chatbot una historia de buenas noches o que te saque de dudas durante una cena, esto te interesa.

ChatGPT ahora puede «ver, escuchar y hablar»

Según OpenAI, ChatGPT ha sido mejorado permitiéndole ahora «ver, escuchar y hablar».

Este asistente virtual, que se ha vuelto viral en tiempo récord, ahora permite conversaciones de voz y interactuar mediante imágenes. Así lo comentó la firma en una publicación reciente.

Y si te estás preguntando dónde anunciaron estas novedades, la respuesta es X/Twitter. Literalmente dijeron: «ChatGPT ahora puede ver, escuchar y hablar».

¿Qué novedades trae esta actualización?

La compañía asegura que en las próximas dos semanas se desplegarán estas funciones, permitiendo a los usuarios tener conversaciones dinámicas por voz con el asistente.

Imagina poder pedir una historia para dormir o resolver una duda en la cena. Esto coloca a ChatGPT más cerca de servicios como los de Amazon’s Alexa o el Siri de Apple.

Como muestra de cómo funciona, OpenAI compartió un demo. En él, alguien pide una historia sobre un «súper-dúper erizo girasol llamado Larry». ChatGPT responde con una voz muy similar a la humana y también responde a otras preguntas sobre el personaje.

¿Cómo lo hace?

El secreto detrás de esta voz casi humana es un nuevo modelo de texto a voz que convierte el texto en audio. Y para hacerlo aún más realista, colaboraron con actores de voz profesionales.

Pero eso no es todo. También usan Whisper, su sistema de reconocimiento de voz de código abierto, para convertir tus palabras en texto.

La empresa cree que esta tecnología puede generar voces sintéticas realistas con solo unos segundos de discurso real. Sin embargo, advierten que esto podría ser peligroso si cae en manos equivocadas, como personas que intenten suplantar identidades.

¿Y las imágenes?

Otro gran salto en esta actualización es la capacidad de cargar una imagen y preguntarle a ChatGPT sobre ella. Podrías, por ejemplo, explorar el contenido de tu nevera y planificar una comida o analizar un gráfico complejo para datos laborales.

Esta nueva función también te permite enfocarte en una parte específica de la imagen utilizando una herramienta de dibujo en la aplicación móvil.

Este tipo de reconocimiento multimodal lleva tiempo anticipándose. La comprensión de las imágenes es potenciada por modelos como GPT-3.5 y GPT-4, capaces de aplicar sus habilidades lingüísticas a diversas imágenes.

¿Cuándo estará disponible?

OpenAI dijo que estas características se lanzarán en las próximas dos semanas para los suscriptores de pago de los servicios Plus y Enterprise de ChatGPT.

Y si eres desarrollador o perteneces a otros grupos de usuarios, ¡también recibirás estas capacidades muy pronto!

Fuente:https://openai.com/blog/chatgpt-can-now-see-hear-and-speak


También podría ser de tu interés:

Deja un comentario