OpenAI lanza nuevos modelos de voz en su API para impulsar asistentes con traducción y transcripción en tiempo real

OpenAI lanza nuevos modelos de voz en su API para impulsar asistentes con traducción y transcripción en tiempo real 2

OpenAI ha anunciado una nueva generación de modelos de voz para su API con el objetivo de mejorar las capacidades de asistentes conversacionales y aplicaciones basadas en inteligencia artificial. Según la compañía, los nuevos sistemas permiten razonar, traducir y transcribir audio en tiempo real, abriendo la puerta a experiencias de voz más naturales y útiles para empresas y desarrolladores. La actualización incluye tres modelos principales: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.

De acuerdo con la información publicada por la empresa, esta nueva apuesta busca ir más allá de las funciones tradicionales de dictado o transcripción. La idea es que las aplicaciones puedan escuchar conversaciones, entender peticiones complejas y ejecutar acciones mientras el usuario habla. La compañía asegura que estos modelos ya están disponibles para pruebas dentro de su plataforma para desarrolladores.

OpenAI quiere llevar la inteligencia artificial de voz a otro nivel

Según la fuente, el nuevo modelo GPT-Realtime-2 incorpora capacidades de razonamiento similares a las de modelos avanzados de la familia GPT-5. Esto permitiría a los sistemas mantener conversaciones más largas, responder a interrupciones y gestionar solicitudes complejas sin perder el contexto. La empresa sostiene que el objetivo es hacer que los asistentes de voz resulten menos robóticos y más cercanos a una conversación natural.

La compañía también explica que estos modelos están pensados para escenarios en los que la voz se convierte en una interfaz principal entre personas y productos digitales. Entre los usos planteados aparecen centros de atención al cliente, asistentes de viajes, herramientas educativas y plataformas inmobiliarias. Según OpenAI, varias empresas ya están probando estas capacidades en entornos reales.

Uno de los ejemplos mencionados por la compañía es el de Zillow, empresa del sector inmobiliario. Según los datos facilitados, la firma trabaja en un asistente capaz de escuchar peticiones como buscar viviendas dentro de un presupuesto determinado, evitar calles con mucho tráfico y programar visitas automáticamente.

Traducción simultánea para más de 70 idiomas

Otra de las novedades destacadas es GPT-Realtime-Translate, un modelo orientado a traducción simultánea. OpenAI asegura que esta herramienta puede traducir voz desde más de 70 idiomas de entrada hacia 13 idiomas de salida, manteniendo el ritmo de la conversación prácticamente en tiempo real.

Según la empresa, este sistema está pensado para situaciones donde las barreras idiomáticas siguen siendo un problema habitual. Entre los posibles escenarios aparecen llamadas de soporte internacional, reuniones entre equipos globales y experiencias turísticas. La intención es reducir la fricción en conversaciones entre personas que hablan idiomas distintos.

De acuerdo con la compañía, algunas empresas como Deutsche Telekom ya están explorando el uso de estas funciones para mejorar la atención al cliente multilingüe. La firma tecnológica sostiene que el objetivo es que las respuestas suenen más fluidas y naturales durante conversaciones largas.

OpenAI afirma que sus nuevos modelos buscan combinar voz, razonamiento y ejecución de tareas en tiempo real dentro de aplicaciones conectadas.

Transcripción en directo para reuniones y contenidos

La tercera gran novedad es GPT-Realtime-Whisper, un modelo centrado en transcripción instantánea de voz. Según OpenAI, este sistema puede generar texto en directo mientras una persona habla, algo pensado para reuniones, subtítulos automáticos o generación de notas.

La empresa señala que este modelo pretende reducir la latencia y mejorar la precisión frente a generaciones anteriores. También destaca que puede resultar útil para documentar conversaciones, crear resúmenes automáticos y mejorar la accesibilidad en servicios digitales.

La llegada de esta tecnología se produce en un momento en el que muchas compañías están acelerando el desarrollo de herramientas de inteligencia artificial centradas en voz. Durante los últimos meses, el sector tecnológico ha mostrado un fuerte interés por sistemas capaces de mantener conversaciones más humanas y útiles.

Cómo funcionarán los nuevos precios y el acceso

Según los datos publicados por OpenAI, GPT-Realtime-2 tendrá un precio inicial de 32 dólares por millón de tokens de entrada de audio. En el caso de GPT-Realtime-Translate, el coste arrancará en 0,034 dólares por minuto, mientras que GPT-Realtime-Whisper tendrá un precio de 0,017 dólares por minuto.

La compañía explica que los modelos ya pueden probarse desde el Playground de OpenAI y también a través de su Realtime API. Además, la empresa asegura que los desarrolladores podrán integrar GPT-Realtime-2 directamente en proyectos existentes mediante herramientas como Codex.

  • GPT-Realtime-2: razonamiento avanzado y conversaciones complejas.
  • GPT-Realtime-Translate: traducción simultánea en tiempo real.
  • GPT-Realtime-Whisper: transcripción instantánea de voz a texto.

Según la fuente, OpenAI también ha incluido medidas de seguridad y filtros para intentar bloquear contenidos dañinos o usos problemáticos. La empresa sostiene que los desarrolladores tendrán acceso a herramientas adicionales para controlar el comportamiento de las aplicaciones creadas sobre estos modelos.

La carrera por dominar la inteligencia artificial conversacional sigue creciendo

El anuncio llega en un contexto de fuerte competencia dentro del mercado de la inteligencia artificial. Empresas como Microsoft, Google, Anthropic o Meta están acelerando el lanzamiento de herramientas centradas en voz, asistentes conversacionales y traducción automática.

En este escenario, OpenAI busca reforzar su posición dentro del mercado para desarrolladores. Según la compañía, la idea es que la voz deje de ser únicamente una función complementaria y se convierta en una forma principal de interacción entre usuarios y software.

La relevancia de este movimiento también tiene impacto en sectores como el soporte técnico, la educación online y la productividad empresarial. Según diferentes análisis del sector, las herramientas de voz impulsadas por IA podrían convertirse en uno de los grandes focos tecnológicos durante los próximos años.

OpenAI sostiene que estas nuevas capacidades permitirán construir aplicaciones capaces de actuar en tiempo real mientras una conversación ocurre. Según la empresa, esto representa un paso más hacia asistentes digitales que no solo respondan preguntas, sino que también puedan tomar decisiones, ejecutar acciones y colaborar activamente con el usuario.

Fuente: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/


También podría ser de tu interés:

Deja un comentario