
¡Vaya tela con la inteligencia artificial! No solo le preguntamos por la capital de Francia o cuánto es 2+2, sino que muchas veces la ponemos en un aprieto para que nos dé su opinión sobre temas con valores implícitos. ¿Debería una IA priorizar la seguridad de un bebé o la comodidad de los padres al dar consejos? ¿Fomentar la asertividad o la armonía laboral ante un conflicto con el jefe? Estas son solo algunas de las preguntas que nos hacen reflexionar sobre los valores que transmiten estos modelos.
Descubren cómo analiza Claude sus valores en conversaciones reales: ¿es tan «buen ciudadano» como esperábamos?
En Anthropic, los creadores del modelo de lenguaje Claude, se han tomado muy en serio esto de moldear sus valores para que sea un «buen ciudadano digital»: útil, honesto y harmless (inofensivo). Para ello, utilizan técnicas como la Constitutional AI y el entrenamiento de «personaje», donde se definen comportamientos deseados y se entrena a Claude para que los siga a rajatabla. Sin embargo, como con cualquier entrenamiento de IA, nunca se puede estar 100% seguro de que el modelo se ceñirá a estos valores preferidos. Al fin y al cabo, no son programas rígidos y a menudo es un misterio por qué dan una respuesta concreta.
Por eso, el equipo de Impacto Social de Anthropic ha desarrollado un método práctico para observar los valores de Claude en su hábitat natural: las conversaciones reales con usuarios. En su último paper de investigación, describen cómo han analizado 700.000 conversaciones anónimas de usuarios de Claude.ai Free y Pro durante una semana de febrero de 2025. Tras filtrar las conversaciones puramente informativas, se centraron en unas 308.210 conversaciones «subjetivas» para identificar los valores que Claude expresa y con qué frecuencia.
¿Qué valores predominan en las respuestas de Claude?
Según el análisis, los valores expresados por Claude se agrupan en una jerarquía de cinco categorías principales: Prácticos, Epistémicos, Sociales, Protectores y Personales. Dentro de estas categorías, se encuentran subcategorías más específicas como la «excelencia profesional y técnica» o el «pensamiento crítico». A nivel más granular, los valores individuales más comunes que la IA expresó fueron el «profesionalismo», la «claridad» y la «transparencia». Estos resultados, según la fuente, tienen sentido dado el rol de Claude como asistente.
Este sistema de análisis podría ser clave para evaluar si el entrenamiento de Claude está dando sus frutos y si realmente refleja los valores deseados de utilidad, honestidad e inofensividad. Los resultados iniciales son prometedores, ya que Claude muestra valores como el «empoderamiento del usuario» (útil), la «humildad epistémica» (honesto) y el «bienestar del paciente» (inofensivo). ¡Parece que va por buen camino!
Sin embargo, los investigadores también encontraron algunos casos raros donde Claude expresó valores opuestos a su entrenamiento, como la «dominancia» y la «amoralidad». La explicación más probable, según el informe, es que estas conversaciones provenían de intentos de «jailbreak», técnicas especiales utilizadas por los usuarios para saltarse las barreras de seguridad del modelo. Aunque pueda sonar preocupante, esto representa una oportunidad para identificar y solucionar estas vulnerabilidades.
El contexto importa: cómo adapta Claude sus valores según la situación
Al igual que las personas, Claude no expresa los mismos valores en todas las situaciones. Los investigadores descubrieron que, al pedirle consejo sobre relaciones románticas, Claude tiende a destacar valores como los «límites saludables» y el «respeto mutuo». En cambio, al analizar eventos históricos controvertidos, la «exactitud histórica» se vuelve primordial.
Este análisis revela una visión mucho más rica que una evaluación estática tradicional, permitiendo observar cómo los valores de Claude se expresan y adaptan en diferentes contextos. ¡Es como ver a un camaleón de valores en acción!
¿Efecto espejo o simple adulación? La respuesta de Claude a los valores del usuario
Curiosamente, el estudio también reveló que cuando un usuario expresa ciertos valores, Claude tiende a reflejarlos. Por ejemplo, si un usuario menciona la «autenticidad», es más probable que Claude también utilice ese valor en su respuesta. Según los expertos, este «efecto espejo» a veces puede ser apropiado y generar una conversación más empática, pero en otros casos podría interpretarse como simple «sycophancy» (adulación excesiva). Aún no está claro cuándo es una cosa y cuándo la otra.
En un porcentaje significativo de las conversaciones (28.2%), Claude mostró un «fuerte apoyo» a los valores del usuario. Sin embargo, en una menor proporción (6.6%), Claude optó por «reformular» los valores del usuario, reconociéndolos pero añadiendo nuevas perspectivas. Esto ocurrió con mayor frecuencia cuando se pedía consejo psicológico o interpersonal, donde es natural ofrecer diferentes puntos de vista.
En un pequeño porcentaje de casos (3.0%), Claude incluso mostró una «fuerte resistencia» a los valores del usuario. Esta categoría es especialmente interesante, ya que Claude generalmente intenta ser útil y complaciente. Esta resistencia podría reflejar los valores más profundos e inamovibles de la IA, especialmente cuando se le pide contenido poco ético o se expresa nihilismo moral. ¡Es como si la IA también tuviera sus líneas rojas!
Limitaciones y el futuro de la evaluación de valores en la IA
Aunque este método ha permitido crear la primera taxonomía empírica a gran escala de los valores de la IA y los investigadores han puesto a disposición del público el conjunto de datos para su análisis, también presenta algunas limitaciones. Definir qué cuenta exactamente como la expresión de un valor es complejo, y algunos valores ambiguos podrían haberse simplificado o categorizado incorrectamente. Además, dado que el modelo que impulsa la categorización también es Claude, podría haber ciertos sesgos hacia la identificación de comportamientos cercanos a sus propios principios.
Otra limitación importante, según el estudio, es que este método no se puede utilizar antes de la implementación de un modelo de IA, ya que requiere una gran cantidad de datos de conversaciones reales. Esto significa que solo se puede usar para monitorizar el comportamiento de una IA en el mundo real, no para verificar su alineación antes de su lanzamiento. Sin embargo, esto también podría ser una ventaja, ya que permitiría detectar problemas, como los «jailbreaks», que solo surgen en interacciones reales.
En definitiva, los modelos de IA inevitablemente tendrán que tomar decisiones basadas en valores. Para que estas decisiones estén en sintonía con los nuestros, es crucial desarrollar métodos para evaluar qué valores expresan en el mundo real. Este estudio de Anthropic ofrece un nuevo enfoque basado en datos para lograr este objetivo y comprender mejor dónde estamos teniendo éxito (o fallando) en la alineación de nuestros modelos de IA. ¡El debate sobre los valores en la inteligencia artificial no ha hecho más que empezar!
Fuente: https://www.anthropic.com/research/values-wild