{"id":130706,"date":"2026-05-10T19:16:46","date_gmt":"2026-05-10T17:16:46","guid":{"rendered":"https:\/\/quondos.com\/mag\/?p=130706"},"modified":"2026-05-10T19:16:48","modified_gmt":"2026-05-10T17:16:48","slug":"openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real","status":"publish","type":"post","link":"https:\/\/quondos.com\/mag\/openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real\/","title":{"rendered":"OpenAI lanza nuevos modelos de voz en su API para impulsar asistentes con traducci\u00f3n y transcripci\u00f3n en tiempo real"},"content":{"rendered":"\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"358\" src=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2026\/05\/image-1-1024x358.png\" alt=\"\" class=\"wp-image-130708\" title=\"\" srcset=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2026\/05\/image-1-1024x358.png 1024w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2026\/05\/image-1-300x105.png 300w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2026\/05\/image-1-768x269.png 768w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2026\/05\/image-1.png 1167w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><strong>OpenAI<\/strong> ha anunciado una nueva generaci\u00f3n de modelos de voz para su API con el objetivo de mejorar las capacidades de asistentes conversacionales y aplicaciones basadas en inteligencia artificial. Seg\u00fan la compa\u00f1\u00eda, los nuevos sistemas permiten <strong>razonar, traducir y transcribir audio en tiempo real<\/strong>, abriendo la puerta a experiencias de voz m\u00e1s naturales y \u00fatiles para empresas y desarrolladores. La actualizaci\u00f3n incluye tres modelos principales: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.<\/p> <p>De acuerdo con la informaci\u00f3n publicada por la empresa, esta nueva apuesta busca ir m\u00e1s all\u00e1 de las funciones tradicionales de dictado o transcripci\u00f3n. La idea es que las aplicaciones puedan <strong>escuchar conversaciones, entender peticiones complejas y ejecutar acciones<\/strong> mientras el usuario habla. La compa\u00f1\u00eda asegura que estos modelos ya est\u00e1n disponibles para pruebas dentro de su plataforma para desarrolladores.<\/p> <div id=\"ez-toc-container\" class=\"ez-toc-v2_0_76 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice de contenidos<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/quondos.com\/mag\/openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real\/#OpenAI_quiere_llevar_la_inteligencia_artificial_de_voz_a_otro_nivel\" >OpenAI quiere llevar la inteligencia artificial de voz a otro nivel<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/quondos.com\/mag\/openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real\/#Traduccion_simultanea_para_mas_de_70_idiomas\" >Traducci\u00f3n simult\u00e1nea para m\u00e1s de 70 idiomas<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/quondos.com\/mag\/openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real\/#Transcripcion_en_directo_para_reuniones_y_contenidos\" >Transcripci\u00f3n en directo para reuniones y contenidos<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/quondos.com\/mag\/openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real\/#Como_funcionaran_los_nuevos_precios_y_el_acceso\" >C\u00f3mo funcionar\u00e1n los nuevos precios y el acceso<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/quondos.com\/mag\/openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real\/#La_carrera_por_dominar_la_inteligencia_artificial_conversacional_sigue_creciendo\" >La carrera por dominar la inteligencia artificial conversacional sigue creciendo<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"OpenAI_quiere_llevar_la_inteligencia_artificial_de_voz_a_otro_nivel\"><\/span>OpenAI quiere llevar la inteligencia artificial de voz a otro nivel<span class=\"ez-toc-section-end\"><\/span><\/h2> <p>Seg\u00fan la fuente, el nuevo modelo GPT-Realtime-2 incorpora capacidades de razonamiento similares a las de modelos avanzados de la familia GPT-5. Esto permitir\u00eda a los sistemas mantener conversaciones m\u00e1s largas, responder a interrupciones y <strong>gestionar solicitudes complejas sin perder el contexto<\/strong>. La empresa sostiene que el objetivo es hacer que los asistentes de voz resulten menos rob\u00f3ticos y m\u00e1s cercanos a una conversaci\u00f3n natural.<\/p> <p>La compa\u00f1\u00eda tambi\u00e9n explica que estos modelos est\u00e1n pensados para escenarios en los que la voz se convierte en una interfaz principal entre personas y productos digitales. Entre los usos planteados aparecen <strong>centros de atenci\u00f3n al cliente, asistentes de viajes, herramientas educativas y plataformas inmobiliarias<\/strong>. Seg\u00fan OpenAI, varias empresas ya est\u00e1n probando estas capacidades en entornos reales.<\/p> <p>Uno de los ejemplos mencionados por la compa\u00f1\u00eda es el de Zillow, empresa del sector inmobiliario. Seg\u00fan los datos facilitados, la firma trabaja en un asistente capaz de escuchar peticiones como buscar viviendas dentro de un presupuesto determinado, evitar calles con mucho tr\u00e1fico y programar visitas autom\u00e1ticamente.<\/p> <h2><span class=\"ez-toc-section\" id=\"Traduccion_simultanea_para_mas_de_70_idiomas\"><\/span>Traducci\u00f3n simult\u00e1nea para m\u00e1s de 70 idiomas<span class=\"ez-toc-section-end\"><\/span><\/h2> <p>Otra de las novedades destacadas es GPT-Realtime-Translate, un modelo orientado a traducci\u00f3n simult\u00e1nea. OpenAI asegura que esta herramienta puede traducir voz desde <strong>m\u00e1s de 70 idiomas de entrada hacia 13 idiomas de salida<\/strong>, manteniendo el ritmo de la conversaci\u00f3n pr\u00e1cticamente en tiempo real.<\/p> <p>Seg\u00fan la empresa, este sistema est\u00e1 pensado para situaciones donde las barreras idiom\u00e1ticas siguen siendo un problema habitual. Entre los posibles escenarios aparecen <strong>llamadas de soporte internacional, reuniones entre equipos globales y experiencias tur\u00edsticas<\/strong>. La intenci\u00f3n es reducir la fricci\u00f3n en conversaciones entre personas que hablan idiomas distintos.<\/p> <p>De acuerdo con la compa\u00f1\u00eda, algunas empresas como Deutsche Telekom ya est\u00e1n explorando el uso de estas funciones para mejorar la atenci\u00f3n al cliente multiling\u00fce. La firma tecnol\u00f3gica sostiene que el objetivo es que las respuestas suenen m\u00e1s fluidas y naturales durante conversaciones largas.<\/p> <blockquote> <p><strong>OpenAI afirma que sus nuevos modelos buscan combinar voz, razonamiento y ejecuci\u00f3n de tareas en tiempo real dentro de aplicaciones conectadas.<\/strong><\/p> <\/blockquote> <h2><span class=\"ez-toc-section\" id=\"Transcripcion_en_directo_para_reuniones_y_contenidos\"><\/span>Transcripci\u00f3n en directo para reuniones y contenidos<span class=\"ez-toc-section-end\"><\/span><\/h2> <p>La tercera gran novedad es GPT-Realtime-Whisper, un modelo centrado en transcripci\u00f3n instant\u00e1nea de voz. Seg\u00fan OpenAI, este sistema puede generar <strong>texto en directo mientras una persona habla<\/strong>, algo pensado para reuniones, subt\u00edtulos autom\u00e1ticos o generaci\u00f3n de notas.<\/p> <p>La empresa se\u00f1ala que este modelo pretende reducir la latencia y mejorar la precisi\u00f3n frente a generaciones anteriores. Tambi\u00e9n destaca que puede resultar \u00fatil para <strong>documentar conversaciones, crear res\u00famenes autom\u00e1ticos y mejorar la accesibilidad<\/strong> en servicios digitales.<\/p> <p>La llegada de esta tecnolog\u00eda se produce en un momento en el que muchas compa\u00f1\u00edas est\u00e1n acelerando el desarrollo de herramientas de inteligencia artificial centradas en voz. Durante los \u00faltimos meses, el sector tecnol\u00f3gico ha mostrado un fuerte inter\u00e9s por sistemas capaces de mantener conversaciones m\u00e1s humanas y \u00fatiles.<\/p> <h2><span class=\"ez-toc-section\" id=\"Como_funcionaran_los_nuevos_precios_y_el_acceso\"><\/span>C\u00f3mo funcionar\u00e1n los nuevos precios y el acceso<span class=\"ez-toc-section-end\"><\/span><\/h2> <p>Seg\u00fan los datos publicados por OpenAI, GPT-Realtime-2 tendr\u00e1 un precio inicial de <strong>32 d\u00f3lares por mill\u00f3n de tokens de entrada de audio<\/strong>. En el caso de GPT-Realtime-Translate, el coste arrancar\u00e1 en 0,034 d\u00f3lares por minuto, mientras que GPT-Realtime-Whisper tendr\u00e1 un precio de 0,017 d\u00f3lares por minuto.<\/p> <p>La compa\u00f1\u00eda explica que los modelos ya pueden probarse desde el Playground de OpenAI y tambi\u00e9n a trav\u00e9s de su Realtime API. Adem\u00e1s, la empresa asegura que los desarrolladores podr\u00e1n integrar GPT-Realtime-2 directamente en proyectos existentes mediante herramientas como Codex.<\/p> <ul> <li><strong>GPT-Realtime-2:<\/strong> razonamiento avanzado y conversaciones complejas.<\/li> <li><strong>GPT-Realtime-Translate:<\/strong> traducci\u00f3n simult\u00e1nea en tiempo real.<\/li> <li><strong>GPT-Realtime-Whisper:<\/strong> transcripci\u00f3n instant\u00e1nea de voz a texto.<\/li> <\/ul> <p>Seg\u00fan la fuente, OpenAI tambi\u00e9n ha incluido medidas de seguridad y filtros para intentar bloquear contenidos da\u00f1inos o usos problem\u00e1ticos. La empresa sostiene que los desarrolladores tendr\u00e1n acceso a herramientas adicionales para controlar el comportamiento de las aplicaciones creadas sobre estos modelos.<\/p> <h2><span class=\"ez-toc-section\" id=\"La_carrera_por_dominar_la_inteligencia_artificial_conversacional_sigue_creciendo\"><\/span>La carrera por dominar la inteligencia artificial conversacional sigue creciendo<span class=\"ez-toc-section-end\"><\/span><\/h2> <p>El anuncio llega en un contexto de fuerte competencia dentro del mercado de la inteligencia artificial. Empresas como Microsoft, Google, Anthropic o Meta est\u00e1n acelerando el lanzamiento de herramientas centradas en voz, asistentes conversacionales y traducci\u00f3n autom\u00e1tica.<\/p> <p>En este escenario, OpenAI busca reforzar su posici\u00f3n dentro del mercado para desarrolladores. Seg\u00fan la compa\u00f1\u00eda, la idea es que la voz deje de ser \u00fanicamente una funci\u00f3n complementaria y se convierta en una <strong>forma principal de interacci\u00f3n entre usuarios y software<\/strong>.<\/p> <p>La relevancia de este movimiento tambi\u00e9n tiene impacto en sectores como el soporte t\u00e9cnico, la educaci\u00f3n online y la productividad empresarial. Seg\u00fan diferentes an\u00e1lisis del sector, las herramientas de voz impulsadas por IA podr\u00edan convertirse en uno de los grandes focos tecnol\u00f3gicos durante los pr\u00f3ximos a\u00f1os.<\/p> <p>OpenAI sostiene que estas nuevas capacidades permitir\u00e1n construir aplicaciones capaces de actuar en tiempo real mientras una conversaci\u00f3n ocurre. Seg\u00fan la empresa, esto representa un paso m\u00e1s hacia asistentes digitales que no solo respondan preguntas, sino que tambi\u00e9n puedan <strong>tomar decisiones, ejecutar acciones y colaborar activamente con el usuario<\/strong>.\n\n\n\n<p>Fuente: https:\/\/openai.com\/index\/advancing-voice-intelligence-with-new-models-in-the-api\/<\/p>\n","protected":false},"excerpt":{"rendered":"<p>OpenAI ha anunciado una nueva generaci\u00f3n de modelos de voz para su API con el objetivo de mejorar las capacidades &#8230; <\/p>\n<p class=\"read-more-container\"><a title=\"OpenAI lanza nuevos modelos de voz en su API para impulsar asistentes con traducci\u00f3n y transcripci\u00f3n en tiempo real\" class=\"read-more button\" href=\"https:\/\/quondos.com\/mag\/openai-lanza-nuevos-modelos-de-voz-en-su-api-para-impulsar-asistentes-con-traduccion-y-transcripcion-en-tiempo-real\/#more-130706\" aria-label=\"Leer m\u00e1s sobre OpenAI lanza nuevos modelos de voz en su API para impulsar asistentes con traducci\u00f3n y transcripci\u00f3n en tiempo real\">Leer m\u00e1s<\/a><\/p>\n","protected":false},"author":850,"featured_media":130708,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1474],"tags":[],"class_list":["post-130706","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50","no-featured-image-padding"],"_links":{"self":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/130706","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/users\/850"}],"replies":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/comments?post=130706"}],"version-history":[{"count":1,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/130706\/revisions"}],"predecessor-version":[{"id":130709,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/130706\/revisions\/130709"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media\/130708"}],"wp:attachment":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media?parent=130706"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/categories?post=130706"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/tags?post=130706"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}