
La compañía Meta, anteriormente conocida como Facebook, ha lanzado un nuevo modelo de inteligencia artificial con capacidades de traducción y transcripción en más de 100 idiomas. Nombrado como Seamless M4T, el modelo es parte de los avances en tecnología que están redefiniendo la forma en que las personas de diferentes lenguajes se comunican.
Un avance significativo en la traducción automática
Según la nota de prensa de Meta, Seamless M4T es un avance significativo en el campo de la traducción automática. La plataforma es capaz de traducir y transcribir cerca de 100 idiomas en texto y voz.
La innovación más resaltante es que el modelo puede reconocer el idioma de origen sin necesidad de un modelo de identificación de idioma separado, lo que simplifica aún más el proceso de traducción.

Características y licencia
El modelo, publicado bajo la licencia Creative Commons CC BY-NC 4.0, está disponible en código abierto. Esto significa que la comunidad de desarrolladores tiene la libertad de modificar y mejorar el sistema.
En cuanto a sus capacidades, Seamless M4T puede reconocer 100 idiomas de entrada y convertirlos en 35 idiomas de salida, tanto en texto como en voz.
Enfoque en la precisión y la velocidad
Meta ha demostrado a través de vídeos que el modelo tiene la capacidad de diferenciar idiomas como el télugu, inglés e indio de manera precisa y rápida. Esto facilita la comunicación para personas que son multilingües.
El kit de herramientas de modelado de secuencias Fairseq fue rediseñado para hacer que el modelo fuera más ligero y pudiera manejar más información durante su entrenamiento.
Sistema de filtrado de palabras sensibles
Una de las preocupaciones abordadas durante el desarrollo fue la de identificar y filtrar palabras sensibles o tóxicas que podrían incitar al odio o la violencia. Este sistema busca prevenir errores graves en la traducción.
Se realizaron revisiones rigurosas de los conjuntos de datos para eliminar la toxicidad desequilibrada en las secuencias de entrenamiento del modelo.

Reconocimiento de sesgos de género
En un esfuerzo por construir un mundo más inclusivo, el modelo puede cuantificar y tratar sesgos de género. Por ejemplo, si la palabra «doctora» se usa en el idioma original, el modelo puede asignar un pronombre femenino en el idioma de destino.
Se ha puesto especial atención en corregir los sesgos que el modelo podría tener en términos de género y raza.
Entrenamiento y fuentes de datos
Para el entrenamiento del modelo, Meta ha extraído texto y voces equivalentes a 4 millones de horas de fuentes públicas de Internet. Sin embargo, la compañía se ha abstenido de revelar las fuentes específicas de sus datos.