
¿Te has preguntado alguna vez cuáles son las fuentes de datos que hacen posible la inteligencia artificial que usamos cada día? Según recientes investigaciones, el entrenamiento de GPT-4, el modelo de IA de OpenAI, fue mucho más complejo y controvertido de lo que muchos imaginan. Conoce cómo se eligieron estos datos, su evolución y los desafíos que han surgido.
La investigación que destapó los secretos de GPT-4
Según el libro «Empire of AI» de Karen Hao, la clave para entender el entrenamiento de GPT-4 está en las entrevistas realizadas a más de 90 empleados de OpenAI. Esta autora desvela en detalle el origen y calidad de los datos utilizados, marcando así un antes y un después en la transparencia en el desarrollo de modelos de IA.
Hao combinó la pasión por la tecnología con la experiencia directa de quienes estuvieron implicados. De ahí surgió la información que alimenta este análisis, que muestra cómo OpenAI fue cambiando su estrategia de selección de datos a medida que evolucionaban sus modelos.
Te animamos a que leas el libro completo para obtener una visión aún más extensa sobre el ecosistema de la inteligencia artificial actual. Muy pronto tendrás el enlace recomendado en nuestra sección de tecnología.
De GPT-2 a GPT-4: cómo cambió el origen de los datos
Para entender el presente, hay que volver al pasado: OpenAI empezó entrenando modelos como GPT-2 en 2019, utilizando un enfoque muy selectivo. Alec Radford, su creador, empleó datos extraídos de enlaces externos de Reddit que tuvieran al menos 3 puntos de karma, formando el conocido dataset WebText.
Este primer dataset estaba formado por 8 millones de páginas web y ocupaba apenas 40 GB. Lo más curioso, según fuentes cercanas, es que la calidad de estos datos era muy superior a la de futuras versiones, ya que la selección era exhaustiva y precisa.
A medida que los modelos crecían en tamaño y requerimientos, OpenAI se vio obligada a bajar la calidad media para conseguir la cantidad necesaria de información. GPT-2 tenía alrededor de 1.500 millones de parámetros, mientras que GPT-3 saltó a los 175.000 millones.
El gran dilema apareció cuando los desarrolladores tuvieron que elegir entre mantener la calidad o priorizar la cantidad de datos. Según las fuentes, si hay muchos parámetros pero pocos datos buenos, el modelo tiende a repetir frases presentes en su entrenamiento, perdiendo originalidad.
Las fuentes de datos principales para entrenar GPT-3
El salto hacia GPT-3 supuso una ampliación de las fuentes originales. Según la investigación de Hao, el equipo liderado por Dario Amodei (ahora CEO de Anthropic) en 2020, incorporó los siguientes recursos:
- Wikipedia en inglés: una de las bases de datos de conocimiento más completas.
- Enlaces de Reddit con un umbral de relevancia más bajo.
- Una versión curada de Common Crawl, priorizando páginas similares a la Wikipedia en estructura.
- Books2: el polémico dataset que incluía obras protegidas por derechos de autor.
Según la misma fuente, Books2 albergaba libros extraídos de Library Genesis, uno de los mayores repositorios pirata online, lo que desató controversia por el uso de contenidos con copyright sin consentimiento. OpenAI reconoció el hecho y eliminó este recurso a partir de GPT-3.5, dejando fuera estos textos de modelos como ChatGPT.
Common Crawl, el archivo libre de la web, también fue objeto de debate. Mientras en GPT-2 se evitó por la baja calidad, en versiones superiores se filtraron sus páginas para elevar el estándar, aunque esto acabó cambiando en GPT-4.
La apuesta por la cantidad en el entrenamiento de GPT-4
En 2022, las exigencias del modelo hicieron que el filtrado de Common Crawl dejara de ser suficiente. OpenAI optó por emplear la mayor parte de este dataset sin apenas filtros de calidad, lo que dejó atrás la selectividad y apostó por un enfoque más masivo.
Pero no solo fue Common Crawl. Según la documentación obtenida por Hao, OpenAI recurrió a descargas completas de GitHub cedidas por Microsoft, scrapeos de enlaces de Twitter, transcripciones de vídeos de YouTube y otros volcados de datos como Pastebin.
El criterio fue claro: todo contenido online que no estuviera explícitamente protegido contra el scrapeo fue considerado válido. Así, se pasó de un modelo exigente con la calidad a uno en el que “todo vale” para alimentar la IA.
Esta decisión plantea un debate sobre la futura evolución de los modelos de inteligencia artificial y los retos éticos asociados a la recolección de datos públicos en Internet.
Las consecuencias de priorizar la cantidad sobre la calidad
Hasta GPT-2, el equipo centraba sus esfuerzos en controlar los datos de entrada. A partir de GPT-3, la atención se desplazó a los outputs y cómo gestionarlos. Para ello, OpenAI incorporó a más de mil supervisores humanos aplicando la técnica conocida como Reinforcement Learning from Human Feedback (RLHF).
Gracias a esta técnica, la compañía intentaba minimizar las respuestas inadecuadas o no deseadas generadas por el modelo, aunque según los expertos, resulta imposible cubrir todos los casos posibles.
De hecho, según nueva información revelada, los intentos por filtrar ciertos outputs han llevado a la creación de técnicas como el jailbreaking, permitiendo que respuestas restringidas salgan a la luz mediante métodos específicos.
El futuro de la inteligencia artificial depende, en gran medida, de la gestión responsable y ética de los datos. Por eso, la investigación de Karen Hao ayuda a poner el foco en estos desafíos que afectan a toda la sociedad digital.
¿Qué podemos esperar en próximas generaciones de IA?
Según analistas, tras esta revelación, será fundamental que tanto los usuarios como las instituciones tecnológicas exijan más transparencia y control sobre las fuentes de datos utilizadas para el entrenamiento de modelos de IA.
OpenAI y el resto de actores del sector tendrán que encontrar el equilibrio entre eficacia, seguridad y ética para seguir avanzando sin perder la confianza del público. Y tú, ¿crees que deberían ser públicos los datasets para entrenar la inteligencia artificial?
Fuente: https://x.com/seostratega/status/1943981179239059694?_bhlid=564f03dbed3d80324ef5a004f9b323401cec01df