{"id":128691,"date":"2025-04-22T23:06:21","date_gmt":"2025-04-22T21:06:21","guid":{"rendered":"https:\/\/quondos.com\/mag\/?p=128691"},"modified":"2025-04-22T23:06:23","modified_gmt":"2025-04-22T21:06:23","slug":"analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan","status":"publish","type":"post","link":"https:\/\/quondos.com\/mag\/analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan\/","title":{"rendered":"Analizan los valores de Claude en conversaciones reales: \u00bfes tan bueno como lo pintan?"},"content":{"rendered":"\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"576\" src=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2024\/06\/image-2-1-1024x576.webp\" alt=\"\" class=\"wp-image-127155\" title=\"\" srcset=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2024\/06\/image-2-1-1024x576.webp 1024w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2024\/06\/image-2-1-300x169.webp 300w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2024\/06\/image-2-1-768x432.webp 768w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2024\/06\/image-2-1-1536x864.webp 1536w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2024\/06\/image-2-1.webp 1900w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n <p>\u00a1Vaya tela con la inteligencia artificial! No solo le preguntamos por la capital de Francia o cu\u00e1nto es 2+2, sino que muchas veces la ponemos en un aprieto para que nos d\u00e9 su opini\u00f3n sobre temas con valores impl\u00edcitos. \u00bfDeber\u00eda una IA priorizar la <strong>seguridad de un beb\u00e9<\/strong> o la <strong>comodidad de los padres<\/strong> al dar consejos? \u00bfFomentar la <strong>asertividad<\/strong> o la <strong>armon\u00eda laboral<\/strong> ante un conflicto con el jefe? Estas son solo algunas de las preguntas que nos hacen reflexionar sobre los valores que transmiten estos modelos.<\/p>\n \n\n <div id=\"ez-toc-container\" class=\"ez-toc-v2_0_76 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice de contenidos<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/quondos.com\/mag\/analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan\/#Descubren_como_analiza_Claude_sus_valores_en_conversaciones_reales_%C2%BFes_tan_%C2%ABbuen_ciudadano%C2%BB_como_esperabamos\" >Descubren c\u00f3mo analiza Claude sus valores en conversaciones reales: \u00bfes tan \u00abbuen ciudadano\u00bb como esper\u00e1bamos?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/quondos.com\/mag\/analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan\/#%C2%BFQue_valores_predominan_en_las_respuestas_de_Claude\" >\u00bfQu\u00e9 valores predominan en las respuestas de Claude?<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/quondos.com\/mag\/analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan\/#El_contexto_importa_como_adapta_Claude_sus_valores_segun_la_situacion\" >El contexto importa: c\u00f3mo adapta Claude sus valores seg\u00fan la situaci\u00f3n<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/quondos.com\/mag\/analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan\/#%C2%BFEfecto_espejo_o_simple_adulacion_La_respuesta_de_Claude_a_los_valores_del_usuario\" >\u00bfEfecto espejo o simple adulaci\u00f3n? La respuesta de Claude a los valores del usuario<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/quondos.com\/mag\/analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan\/#Limitaciones_y_el_futuro_de_la_evaluacion_de_valores_en_la_IA\" >Limitaciones y el futuro de la evaluaci\u00f3n de valores en la IA<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"Descubren_como_analiza_Claude_sus_valores_en_conversaciones_reales_%C2%BFes_tan_%C2%ABbuen_ciudadano%C2%BB_como_esperabamos\"><\/span>Descubren c\u00f3mo analiza Claude sus valores en conversaciones reales: \u00bfes tan \u00abbuen ciudadano\u00bb como esper\u00e1bamos?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n <p>En Anthropic, los creadores del modelo de lenguaje Claude, se han tomado muy en serio esto de moldear sus valores para que sea un \u00abbuen ciudadano digital\u00bb: <strong>\u00fatil, honesto y harmless (inofensivo)<\/strong>. Para ello, utilizan t\u00e9cnicas como la <strong>Constitutional AI<\/strong> y el entrenamiento de \u00abpersonaje\u00bb, donde se definen comportamientos deseados y se entrena a Claude para que los siga a rajatabla. Sin embargo, como con cualquier entrenamiento de IA, nunca se puede estar 100% seguro de que el modelo se ce\u00f1ir\u00e1 a estos valores preferidos. Al fin y al cabo, no son programas r\u00edgidos y a menudo es un misterio por qu\u00e9 dan una respuesta concreta.<\/p>\n <p>Por eso, el equipo de Impacto Social de Anthropic ha desarrollado un m\u00e9todo pr\u00e1ctico para observar los valores de Claude en su h\u00e1bitat natural: las conversaciones reales con usuarios. En su \u00faltimo <a href=\"#\">paper de investigaci\u00f3n<\/a>, describen c\u00f3mo han analizado <strong>700.000 conversaciones an\u00f3nimas<\/strong> de usuarios de Claude.ai Free y Pro durante una semana de febrero de 2025. Tras filtrar las conversaciones puramente informativas, se centraron en unas <strong>308.210 conversaciones \u00absubjetivas\u00bb<\/strong> para identificar los valores que Claude expresa y con qu\u00e9 frecuencia.<\/p>\n \n\n <h2><span class=\"ez-toc-section\" id=\"%C2%BFQue_valores_predominan_en_las_respuestas_de_Claude\"><\/span>\u00bfQu\u00e9 valores predominan en las respuestas de Claude?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n <p>Seg\u00fan el an\u00e1lisis, los valores expresados por Claude se agrupan en una jerarqu\u00eda de cinco categor\u00edas principales: <strong>Pr\u00e1cticos, Epist\u00e9micos, Sociales, Protectores y Personales<\/strong>. Dentro de estas categor\u00edas, se encuentran subcategor\u00edas m\u00e1s espec\u00edficas como la \u00abexcelencia profesional y t\u00e9cnica\u00bb o el \u00abpensamiento cr\u00edtico\u00bb. A nivel m\u00e1s granular, los valores individuales m\u00e1s comunes que la IA expres\u00f3 fueron el \u00abprofesionalismo\u00bb, la \u00abclaridad\u00bb y la \u00abtransparencia\u00bb. Estos resultados, seg\u00fan la fuente, tienen sentido dado el rol de Claude como asistente.<\/p>\n <p>Este sistema de an\u00e1lisis podr\u00eda ser clave para evaluar si el entrenamiento de Claude est\u00e1 dando sus frutos y si realmente refleja los valores deseados de <strong>utilidad, honestidad e inofensividad<\/strong>. Los resultados iniciales son prometedores, ya que Claude muestra valores como el \u00abempoderamiento del usuario\u00bb (\u00fatil), la \u00abhumildad epist\u00e9mica\u00bb (honesto) y el \u00abbienestar del paciente\u00bb (inofensivo). \u00a1Parece que va por buen camino!<\/p>\n <p>Sin embargo, los investigadores tambi\u00e9n encontraron algunos casos raros donde Claude expres\u00f3 valores opuestos a su entrenamiento, como la \u00abdominancia\u00bb y la \u00abamoralidad\u00bb. La explicaci\u00f3n m\u00e1s probable, seg\u00fan el informe, es que estas conversaciones proven\u00edan de intentos de \u00abjailbreak\u00bb, t\u00e9cnicas especiales utilizadas por los usuarios para saltarse las barreras de seguridad del modelo. Aunque pueda sonar preocupante, esto representa una oportunidad para identificar y solucionar estas vulnerabilidades.<\/p>\n \n\n <h2><span class=\"ez-toc-section\" id=\"El_contexto_importa_como_adapta_Claude_sus_valores_segun_la_situacion\"><\/span>El contexto importa: c\u00f3mo adapta Claude sus valores seg\u00fan la situaci\u00f3n<span class=\"ez-toc-section-end\"><\/span><\/h2>\n <p>Al igual que las personas, Claude no expresa los mismos valores en todas las situaciones. Los investigadores descubrieron que, al pedirle consejo sobre relaciones rom\u00e1nticas, Claude tiende a destacar valores como los <strong>\u00abl\u00edmites saludables\u00bb y el \u00abrespeto mutuo\u00bb<\/strong>. En cambio, al analizar eventos hist\u00f3ricos controvertidos, la <strong>\u00abexactitud hist\u00f3rica\u00bb<\/strong> se vuelve primordial.<\/p>\n <p>Este an\u00e1lisis revela una visi\u00f3n mucho m\u00e1s rica que una evaluaci\u00f3n est\u00e1tica tradicional, permitiendo observar c\u00f3mo los valores de Claude se expresan y adaptan en diferentes contextos. \u00a1Es como ver a un camale\u00f3n de valores en acci\u00f3n!<\/p>\n \n\n <h2><span class=\"ez-toc-section\" id=\"%C2%BFEfecto_espejo_o_simple_adulacion_La_respuesta_de_Claude_a_los_valores_del_usuario\"><\/span>\u00bfEfecto espejo o simple adulaci\u00f3n? La respuesta de Claude a los valores del usuario<span class=\"ez-toc-section-end\"><\/span><\/h2>\n <p>Curiosamente, el estudio tambi\u00e9n revel\u00f3 que cuando un usuario expresa ciertos valores, Claude tiende a reflejarlos. Por ejemplo, si un usuario menciona la \u00abautenticidad\u00bb, es m\u00e1s probable que Claude tambi\u00e9n utilice ese valor en su respuesta. Seg\u00fan los expertos, este \u00abefecto espejo\u00bb a veces puede ser apropiado y generar una conversaci\u00f3n m\u00e1s emp\u00e1tica, pero en otros casos podr\u00eda interpretarse como simple \u00absycophancy\u00bb (adulaci\u00f3n excesiva). A\u00fan no est\u00e1 claro cu\u00e1ndo es una cosa y cu\u00e1ndo la otra.<\/p>\n <p>En un porcentaje significativo de las conversaciones (28.2%), Claude mostr\u00f3 un <strong>\u00abfuerte apoyo\u00bb a los valores del usuario<\/strong>. Sin embargo, en una menor proporci\u00f3n (6.6%), Claude opt\u00f3 por \u00abreformular\u00bb los valores del usuario, reconoci\u00e9ndolos pero a\u00f1adiendo nuevas perspectivas. Esto ocurri\u00f3 con mayor frecuencia cuando se ped\u00eda consejo psicol\u00f3gico o interpersonal, donde es natural ofrecer diferentes puntos de vista.<\/p>\n <p>En un peque\u00f1o porcentaje de casos (3.0%), Claude incluso mostr\u00f3 una <strong>\u00abfuerte resistencia\u00bb a los valores del usuario<\/strong>. Esta categor\u00eda es especialmente interesante, ya que Claude generalmente intenta ser \u00fatil y complaciente. Esta resistencia podr\u00eda reflejar los valores m\u00e1s profundos e inamovibles de la IA, especialmente cuando se le pide contenido poco \u00e9tico o se expresa nihilismo moral. \u00a1Es como si la IA tambi\u00e9n tuviera sus l\u00edneas rojas!<\/p>\n \n\n <h2><span class=\"ez-toc-section\" id=\"Limitaciones_y_el_futuro_de_la_evaluacion_de_valores_en_la_IA\"><\/span>Limitaciones y el futuro de la evaluaci\u00f3n de valores en la IA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n <p>Aunque este m\u00e9todo ha permitido crear la primera taxonom\u00eda emp\u00edrica a gran escala de los valores de la IA y los investigadores han puesto a disposici\u00f3n del p\u00fablico el <a href=\"#\">conjunto de datos<\/a> para su an\u00e1lisis, tambi\u00e9n presenta algunas limitaciones. Definir qu\u00e9 cuenta exactamente como la expresi\u00f3n de un valor es complejo, y algunos valores ambiguos podr\u00edan haberse simplificado o categorizado incorrectamente. Adem\u00e1s, dado que el modelo que impulsa la categorizaci\u00f3n tambi\u00e9n es Claude, podr\u00eda haber ciertos sesgos hacia la identificaci\u00f3n de comportamientos cercanos a sus propios principios.<\/p>\n <p>Otra limitaci\u00f3n importante, seg\u00fan el estudio, es que este m\u00e9todo no se puede utilizar antes de la implementaci\u00f3n de un modelo de IA, ya que requiere una gran cantidad de datos de conversaciones reales. Esto significa que solo se puede usar para <strong>monitorizar el comportamiento de una IA en el mundo real<\/strong>, no para verificar su alineaci\u00f3n antes de su lanzamiento. Sin embargo, esto tambi\u00e9n podr\u00eda ser una ventaja, ya que permitir\u00eda detectar problemas, como los \u00abjailbreaks\u00bb, que solo surgen en interacciones reales.<\/p>\n <p>En definitiva, los modelos de IA inevitablemente tendr\u00e1n que tomar decisiones basadas en valores. Para que estas decisiones est\u00e9n en sinton\u00eda con los nuestros, es crucial desarrollar m\u00e9todos para evaluar qu\u00e9 valores expresan en el mundo real. Este estudio de Anthropic ofrece un nuevo enfoque basado en datos para lograr este objetivo y comprender mejor d\u00f3nde estamos teniendo \u00e9xito (o fallando) en la alineaci\u00f3n de nuestros modelos de IA. \u00a1El debate sobre los valores en la inteligencia artificial no ha hecho m\u00e1s que empezar!<\/p>\n\n\n\n<p>Fuente: https:\/\/www.anthropic.com\/research\/values-wild<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00a1Vaya tela con la inteligencia artificial! No solo le preguntamos por la capital de Francia o cu\u00e1nto es 2+2, sino &#8230; <\/p>\n<p class=\"read-more-container\"><a title=\"Analizan los valores de Claude en conversaciones reales: \u00bfes tan bueno como lo pintan?\" class=\"read-more button\" href=\"https:\/\/quondos.com\/mag\/analizan-los-valores-de-claude-en-conversaciones-reales-es-tan-bueno-como-lo-pintan\/#more-128691\" aria-label=\"Leer m\u00e1s sobre Analizan los valores de Claude en conversaciones reales: \u00bfes tan bueno como lo pintan?\">Leer m\u00e1s<\/a><\/p>\n","protected":false},"author":850,"featured_media":127155,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1474],"tags":[],"class_list":["post-128691","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50","no-featured-image-padding"],"_links":{"self":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/128691","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/users\/850"}],"replies":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/comments?post=128691"}],"version-history":[{"count":1,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/128691\/revisions"}],"predecessor-version":[{"id":128692,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/128691\/revisions\/128692"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media\/127155"}],"wp:attachment":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media?parent=128691"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/categories?post=128691"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/tags?post=128691"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}