{"id":129148,"date":"2025-07-16T20:10:49","date_gmt":"2025-07-16T18:10:49","guid":{"rendered":"https:\/\/quondos.com\/mag\/?p=129148"},"modified":"2025-07-16T20:10:50","modified_gmt":"2025-07-16T18:10:50","slug":"de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai","status":"publish","type":"post","link":"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/","title":{"rendered":"\u00bfDe d\u00f3nde salen los datos que alimentaron a GPT-4? Las claves tras el entrenamiento de la IA de OpenAI"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"900\" height=\"736\" src=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI.jpg\" alt=\"\" class=\"wp-image-125239\" title=\"\" srcset=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI.jpg 900w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI-300x245.jpg 300w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI-768x628.jpg 768w\" sizes=\"auto, (max-width: 900px) 100vw, 900px\" \/><\/figure>\n\n\n\n<p> <strong>\u00bfTe has preguntado alguna vez cu\u00e1les son las fuentes de datos que hacen posible la inteligencia artificial que usamos cada d\u00eda?<\/strong> Seg\u00fan recientes investigaciones, el entrenamiento de GPT-4, el modelo de IA de OpenAI, fue mucho m\u00e1s complejo y controvertido de lo que muchos imaginan. Conoce c\u00f3mo se eligieron estos datos, su evoluci\u00f3n y los desaf\u00edos que han surgido. <\/p> <div id=\"ez-toc-container\" class=\"ez-toc-v2_0_76 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice de contenidos<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/#La_investigacion_que_destapo_los_secretos_de_GPT-4\" >La investigaci\u00f3n que destap\u00f3 los secretos de GPT-4<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/#De_GPT-2_a_GPT-4_como_cambio_el_origen_de_los_datos\" >De GPT-2 a GPT-4: c\u00f3mo cambi\u00f3 el origen de los datos<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/#Las_fuentes_de_datos_principales_para_entrenar_GPT-3\" >Las fuentes de datos principales para entrenar GPT-3<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/#La_apuesta_por_la_cantidad_en_el_entrenamiento_de_GPT-4\" >La apuesta por la cantidad en el entrenamiento de GPT-4<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/#Las_consecuencias_de_priorizar_la_cantidad_sobre_la_calidad\" >Las consecuencias de priorizar la cantidad sobre la calidad<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/#%C2%BFQue_podemos_esperar_en_proximas_generaciones_de_IA\" >\u00bfQu\u00e9 podemos esperar en pr\u00f3ximas generaciones de IA?<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"La_investigacion_que_destapo_los_secretos_de_GPT-4\"><\/span>La investigaci\u00f3n que destap\u00f3 los secretos de GPT-4<span class=\"ez-toc-section-end\"><\/span><\/h2> <p> Seg\u00fan <strong>el libro \u00abEmpire of AI\u00bb de Karen Hao<\/strong>, la clave para entender el entrenamiento de GPT-4 est\u00e1 en las entrevistas realizadas a <strong>m\u00e1s de 90 empleados de OpenAI<\/strong>. Esta autora desvela en detalle el origen y calidad de los datos utilizados, marcando as\u00ed un antes y un despu\u00e9s en la transparencia en el desarrollo de modelos de IA. <\/p> <p> <strong>Hao combin\u00f3 la pasi\u00f3n por la tecnolog\u00eda con la experiencia directa<\/strong> de quienes estuvieron implicados. De ah\u00ed surgi\u00f3 la informaci\u00f3n que alimenta este an\u00e1lisis, que muestra c\u00f3mo OpenAI fue cambiando su estrategia de selecci\u00f3n de datos a medida que evolucionaban sus modelos. <\/p> <p> Te animamos a que leas el libro completo para obtener una visi\u00f3n a\u00fan m\u00e1s extensa sobre el <strong>ecosistema de la inteligencia artificial actual<\/strong>. Muy pronto tendr\u00e1s el enlace recomendado en nuestra secci\u00f3n de tecnolog\u00eda. <\/p> <h2><span class=\"ez-toc-section\" id=\"De_GPT-2_a_GPT-4_como_cambio_el_origen_de_los_datos\"><\/span>De GPT-2 a GPT-4: c\u00f3mo cambi\u00f3 el origen de los datos<span class=\"ez-toc-section-end\"><\/span><\/h2> <p> <strong>Para entender el presente, hay que volver al pasado:<\/strong> OpenAI empez\u00f3 entrenando modelos como GPT-2 en 2019, utilizando un enfoque muy selectivo. Alec Radford, su creador, emple\u00f3 datos extra\u00eddos de enlaces externos de Reddit que tuvieran al menos 3 puntos de karma, formando el conocido dataset WebText. <\/p> <p> Este primer dataset estaba formado por <strong>8 millones de p\u00e1ginas web<\/strong> y ocupaba apenas <strong>40 GB<\/strong>. Lo m\u00e1s curioso, seg\u00fan fuentes cercanas, es que la <strong>calidad de estos datos era muy superior<\/strong> a la de futuras versiones, ya que la selecci\u00f3n era exhaustiva y precisa. <\/p> <p> A medida que los modelos crec\u00edan en tama\u00f1o y requerimientos, <strong>OpenAI se vio obligada a bajar la calidad media<\/strong> para conseguir la cantidad necesaria de informaci\u00f3n. GPT-2 ten\u00eda alrededor de 1.500 millones de par\u00e1metros, mientras que GPT-3 salt\u00f3 a los 175.000 millones. <\/p> <p> <strong>El gran dilema apareci\u00f3<\/strong> cuando los desarrolladores tuvieron que elegir entre mantener la calidad o priorizar la cantidad de datos. Seg\u00fan las fuentes, si hay muchos par\u00e1metros pero pocos datos buenos, el modelo tiende a repetir frases presentes en su entrenamiento, perdiendo originalidad. <\/p> <h2><span class=\"ez-toc-section\" id=\"Las_fuentes_de_datos_principales_para_entrenar_GPT-3\"><\/span>Las fuentes de datos principales para entrenar GPT-3<span class=\"ez-toc-section-end\"><\/span><\/h2> <p> El salto hacia GPT-3 supuso <strong>una ampliaci\u00f3n de las fuentes originales<\/strong>. Seg\u00fan la investigaci\u00f3n de Hao, el equipo liderado por Dario Amodei (ahora CEO de Anthropic) en 2020, incorpor\u00f3 los siguientes recursos: <\/p> <ul> <li><strong>Wikipedia en ingl\u00e9s<\/strong>: una de las bases de datos de conocimiento m\u00e1s completas.<\/li> <li><strong>Enlaces de Reddit<\/strong> con un umbral de relevancia m\u00e1s bajo.<\/li> <li><strong>Una versi\u00f3n curada de Common Crawl<\/strong>, priorizando p\u00e1ginas similares a la Wikipedia en estructura.<\/li> <li><strong>Books2<\/strong>: el pol\u00e9mico dataset que inclu\u00eda obras protegidas por derechos de autor.<\/li> <\/ul> <p> Seg\u00fan la misma fuente, Books2 albergaba libros extra\u00eddos de Library Genesis, uno de los mayores repositorios pirata online, lo que <strong>desat\u00f3 controversia por el uso de contenidos con copyright sin consentimiento<\/strong>. OpenAI reconoci\u00f3 el hecho y elimin\u00f3 este recurso a partir de GPT-3.5, dejando fuera estos textos de modelos como ChatGPT. <\/p> <p> <strong>Common Crawl<\/strong>, el archivo libre de la web, tambi\u00e9n fue objeto de debate. Mientras en GPT-2 se evit\u00f3 por la baja calidad, en versiones superiores se filtraron sus p\u00e1ginas para elevar el est\u00e1ndar, aunque esto acab\u00f3 cambiando en GPT-4. <\/p> <h2><span class=\"ez-toc-section\" id=\"La_apuesta_por_la_cantidad_en_el_entrenamiento_de_GPT-4\"><\/span>La apuesta por la cantidad en el entrenamiento de GPT-4<span class=\"ez-toc-section-end\"><\/span><\/h2> <p> En 2022, las exigencias del modelo hicieron que el filtrado de Common Crawl <strong>dejara de ser suficiente<\/strong>. OpenAI opt\u00f3 por emplear la mayor parte de este dataset sin apenas filtros de calidad, lo que dej\u00f3 atr\u00e1s la selectividad y apost\u00f3 por un enfoque m\u00e1s masivo. <\/p> <p> Pero no solo fue Common Crawl. Seg\u00fan la documentaci\u00f3n obtenida por Hao, OpenAI recurri\u00f3 a <strong>descargas completas de GitHub cedidas por Microsoft<\/strong>, scrapeos de enlaces de Twitter, <strong>transcripciones de v\u00eddeos de YouTube<\/strong> y otros volcados de datos como <strong>Pastebin<\/strong>. <\/p> <p> El criterio fue claro: <strong>todo contenido online que no estuviera expl\u00edcitamente protegido contra el scrapeo fue considerado v\u00e1lido<\/strong>. As\u00ed, se pas\u00f3 de un modelo exigente con la calidad a uno en el que \u201ctodo vale\u201d para alimentar la IA. <\/p> <p> Esta decisi\u00f3n plantea un debate sobre la futura evoluci\u00f3n de los modelos de inteligencia artificial y los <strong>retos \u00e9ticos asociados<\/strong> a la recolecci\u00f3n de datos p\u00fablicos en Internet. <\/p> <h2><span class=\"ez-toc-section\" id=\"Las_consecuencias_de_priorizar_la_cantidad_sobre_la_calidad\"><\/span>Las consecuencias de priorizar la cantidad sobre la calidad<span class=\"ez-toc-section-end\"><\/span><\/h2> <p> Hasta GPT-2, el equipo centraba sus esfuerzos en <strong>controlar los datos de entrada<\/strong>. A partir de GPT-3, la atenci\u00f3n se desplaz\u00f3 a los outputs y c\u00f3mo gestionarlos. Para ello, <strong>OpenAI incorpor\u00f3 a m\u00e1s de mil supervisores humanos<\/strong> aplicando la t\u00e9cnica conocida como Reinforcement Learning from Human Feedback (RLHF). <\/p> <p> Gracias a esta t\u00e9cnica, la compa\u00f1\u00eda intentaba minimizar <strong>las respuestas inadecuadas o no deseadas<\/strong> generadas por el modelo, aunque seg\u00fan los expertos, resulta imposible cubrir todos los casos posibles. <\/p> <p> De hecho, seg\u00fan nueva informaci\u00f3n revelada, los intentos por filtrar ciertos outputs han llevado a la creaci\u00f3n de t\u00e9cnicas como el jailbreaking, permitiendo que <strong>respuestas restringidas salgan a la luz<\/strong> mediante m\u00e9todos espec\u00edficos. <\/p> <p> <strong>El futuro de la inteligencia artificial<\/strong> depende, en gran medida, de la gesti\u00f3n responsable y \u00e9tica de los datos. Por eso, la investigaci\u00f3n de Karen Hao ayuda a poner el foco en estos desaf\u00edos que afectan a toda la sociedad digital. <\/p> <h2><span class=\"ez-toc-section\" id=\"%C2%BFQue_podemos_esperar_en_proximas_generaciones_de_IA\"><\/span>\u00bfQu\u00e9 podemos esperar en pr\u00f3ximas generaciones de IA?<span class=\"ez-toc-section-end\"><\/span><\/h2> <p> Seg\u00fan analistas, tras esta revelaci\u00f3n, ser\u00e1 fundamental que tanto los usuarios como las instituciones tecnol\u00f3gicas <strong>exijan m\u00e1s transparencia y control sobre las fuentes de datos utilizadas<\/strong> para el entrenamiento de modelos de IA. <\/p> <p> <strong>OpenAI y el resto de actores del sector<\/strong> tendr\u00e1n que encontrar el equilibrio entre eficacia, seguridad y \u00e9tica para seguir avanzando sin perder la confianza del p\u00fablico. Y t\u00fa, <strong>\u00bfcrees que deber\u00edan ser p\u00fablicos los datasets para entrenar la inteligencia artificial?<\/strong> <\/p>\n\n\n\n<p>Fuente: https:\/\/x.com\/seostratega\/status\/1943981179239059694?_bhlid=564f03dbed3d80324ef5a004f9b323401cec01df<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00bfTe has preguntado alguna vez cu\u00e1les son las fuentes de datos que hacen posible la inteligencia artificial que usamos cada &#8230; <\/p>\n<p class=\"read-more-container\"><a title=\"\u00bfDe d\u00f3nde salen los datos que alimentaron a GPT-4? Las claves tras el entrenamiento de la IA de OpenAI\" class=\"read-more button\" href=\"https:\/\/quondos.com\/mag\/de-donde-salen-los-datos-que-alimentaron-a-gpt-4-las-claves-tras-el-entrenamiento-de-la-ia-de-openai\/#more-129148\" aria-label=\"Leer m\u00e1s sobre \u00bfDe d\u00f3nde salen los datos que alimentaron a GPT-4? Las claves tras el entrenamiento de la IA de OpenAI\">Leer m\u00e1s<\/a><\/p>\n","protected":false},"author":850,"featured_media":125239,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1474],"tags":[],"class_list":["post-129148","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50","no-featured-image-padding"],"_links":{"self":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/129148","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/users\/850"}],"replies":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/comments?post=129148"}],"version-history":[{"count":2,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/129148\/revisions"}],"predecessor-version":[{"id":129150,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/129148\/revisions\/129150"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media\/125239"}],"wp:attachment":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media?parent=129148"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/categories?post=129148"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/tags?post=129148"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}