OpenAI, Google y Meta entrenan sus modelos de IA con transcripciones de vídeos de YouTube

OpenAI, Google y Meta entrenan sus modelos de IA con transcripciones de vídeos de YouTube 2

En un mundo donde la inteligencia artificial (IA) avanza a pasos agigantados, las gigantes tecnológicas como OpenAI, Google y Meta parecen estar dispuestas a todo para mantenerse a la vanguardia. Según una investigación de The New York Times, estas compañías han ignorado sus propias políticas corporativas y debatido hasta dónde pueden estirar los límites de la ley de derechos de autor para recopilar datos en línea destinados a entrenar sus sistemas de IA.

La carrera desesperada por los datos

En busca de alimentar sus modelos de IA, OpenAI, Google y Meta han adoptado prácticas que rozan los límites éticos y legales. Según fuentes cercanas a estas operaciones, OpenAI creó una herramienta de reconocimiento de voz para transcribir videos de YouTube y obtener textos conversacionales nuevos, pese a que esto podría ir en contra de las reglas de la plataforma.

Este esfuerzo culminó en la transcripción de más de un millón de horas de videos, una tarea en la que participó personalmente Greg Brockman, presidente de OpenAI. Estos textos alimentaron el desarrollo de GPT-4, considerado uno de los modelos de IA más potentes del mundo.

La urgencia de innovar

Para liderar en IA, no solo basta con tener la tecnología, sino que se necesita una cantidad masiva de datos digitales. Google y Meta, por ejemplo, han transgredido sus propias políticas en busca de este preciado recurso. Meta incluso consideró comprar la editorial Simon & Schuster para acceder a obras extensas y debatió sobre recopilar datos con derechos de autor de internet, enfrentando posibles demandas.

Por su parte, Google expandió sus términos de servicio permitiéndose usar contenido de Google Docs y Google Maps en sus productos de IA, lo que plantea preguntas sobre la privacidad y el uso de datos personales.

La insaciable demanda de datos

Esta voracidad por los datos subraya cómo la información en línea se ha convertido en el núcleo de la industria de la IA. La creación de sistemas innovadores depende de tener suficientes datos para enseñar a las tecnologías a producir textos, imágenes, sonidos y videos que imiten las creaciones humanas.

Los expertos advierten que las empresas tecnológicas podrían agotar los datos de alta calidad disponibles en internet tan pronto como en 2026. Ante esta situación, algunas están desarrollando información «sintética» generada por IA, una solución que podría perpetuar sus capacidades de entrenamiento sin depender de datos con derechos de autor.

Entre la innovación y la controversia

La estrategia de estas empresas ha provocado demandas por parte de creadores que ven cómo sus obras son utilizadas sin permiso. The New York Times demandó a OpenAI y Microsoft el año pasado por utilizar artículos con derechos de autor sin autorización para entrenar chatbots de IA, un caso que pone en relieve la tensa relación entre el avance tecnológico y los derechos de autor.

A medida que la IA continúa evolucionando, la industria y los legisladores deberán encontrar un equilibrio entre la innovación y la protección de la propiedad intelectual, una tarea que se perfila tan compleja como fascinante.

Fuente:https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html


También podría ser de tu interés:

Deja un comentario