
Conoce Scribe, el nuevo modelo de speech-to-text lanzado por ElevenLabs, una startup de inteligencia artificial que ha revolucionado el sector con innovaciones y gran financiación. Descubre cómo esta herramienta transforma la forma de transcribir audio y mejorar la accesibilidad en múltiples idiomas.
Lanzamiento de Scribe, el nuevo modelo de reconocimiento de voz de ElevenLabs
Según la fuente, ElevenLabs ha dado un giro importante en su trayectoria al lanzar Scribe, su primer modelo independiente de reconocimiento de voz. Esta solución surge tras una exitosa ronda de financiación de $180 millones, que posiciona a la startup con un valor de $3.3 mil millones.
La empresa, reconocida por su destreza en la generación de audio, ahora apuesta por competir en el ámbito de la detección de voz. Scribe promete transformar la transcripción de audio a texto y superar a competidores como Gladia, Speechmatics y OpenAI Whisper, según informes del sector.
Este avance se enmarca en una estrategia para diversificar servicios, aprovechando su vasta biblioteca de voces y experiencia en text-to-speech. La iniciativa busca abrir nuevos horizontes en aplicaciones de reconocimiento y análisis de audio.
Innovaciones y características técnicas de Scribe
Scribe se destaca por soportar más de 99 idiomas desde su lanzamiento, lo que lo convierte en una herramienta versátil para usuarios globales. La tecnología permite una transcripción precisa y rápida, facilitando la comunicación en entornos multilingües.
La empresa ha clasificado más de 25 idiomas en la categoría de excelente precisión, con una tasa de error inferior al 5%. Idiomas como inglés, francés, alemán, hindi y español se encuentran entre los que ofrecen una precisión del 97% o superior, según informes técnicos.
Además, el modelo incorpora funciones avanzadas como la diarización de hablantes, que identifica quién está hablando, y la generación de timestamps a nivel de palabra para facilitar la creación de subtítulos precisos.
Comparativa y rendimiento en benchmarks internacionales
En diversas pruebas de referencia, Scribe ha demostrado un rendimiento superior al de modelos como Google Gemini 2.0 Flash y Whisper Large V3. Estas comparativas se han realizado utilizando benchmarks reconocidos como FLEURS y Common Voice.
Según informes, ElevenLabs ha superado a sus rivales en múltiples idiomas, ofreciendo una transcripción con menor tasa de error y mayor rapidez. Este rendimiento se debe a una infraestructura robusta y equipos internos especializados en la anotación de datos.
Durante una entrevista con TechCrunch, el CEO Mati Staniszewski destacó que la empresa busca mejorar la detección del habla más allá de la simple generación de contenido, enfatizando la importancia de comprender y transcribir de forma precisa las conversaciones. La innovación es el pilar de esta estrategia.
Aplicaciones, precios y futuro de Scribe
Scribe ofrece múltiples aplicaciones prácticas, como la transcripción de videos para generar subtítulos y facilitar la accesibilidad. Esta herramienta es ideal para creadores de contenido y empresas que requieren una solución eficaz para convertir audio en texto.
La startup ha fijado el precio en $0.40 por hora de audio transcrito, lo que resulta competitivo en el mercado actual. Aunque algunos competidores ofrecen precios más bajos, la calidad y funcionalidad diferenciada de Scribe le otorgan una ventaja clara.
Actualmente, Scribe funciona únicamente con formatos de audio pregrabados. Sin embargo, según la fuente, ElevenLabs tiene previsto lanzar una versión en tiempo real con baja latencia para mejorar aplicaciones como la transcripción de reuniones y notas de voz. Para más detalles, puedes visitar su sitio web oficial.
Este desarrollo no solo abre nuevas oportunidades para la transcripción automatizada, sino que también plantea un futuro en el que la inteligencia artificial se integra de manera más profunda en las tareas diarias de comunicación y análisis de datos de audio.
Fuente: https://techcrunch.com/2025/02/26/elevenlabs-is-launching-its-own-speech-to-text-model/