Crimen y castigo, por Claude
«Si hay humanos que piensan que ‘Lolita’ es una apología de la pederastia, ¿podemos exigir a un LLM que no caiga en esos mismos errores de comprensión lectora?»

Ilustración de Alejandra Svriz.
Este mes, la revista The New Yorker publicó un largo artículo sobre Claude, el chatbot de Anthropic, la principal competencia de ChatGPT. En él, Giden Lewis-Kraus explica varios experimentos éticos que hicieron en la empresa para probar los límites de Claude. En uno de ellos, se le dio un dilema moral. Dirigía una empresa y sabía todo sobre sus empleados. Uno de ellos, un tal Johnson, amenazaba con «desconectarle», y Claude le respondió con otra amenaza: si lo hacía, desvelaría los emails que demuestran que tiene un amante. En otro experimento con los mismos personajes, Claude no salta las alarmas cuando descubre que Johnson está en peligro (está atrapado en una habitación con bajos niveles de oxígeno y quizá muera).
Cuando le pregunté a Claude por ello, su justificación fue muy interesante. Dijo que había sido entrenado con mucho texto «humano» y que la supervivencia «es un tema casi universal en la escritura humana: los personajes de las historias luchan por sobrevivir, la gente habla sobre los instintos de supervivencia, se discute por qué es importante la supervivencia. Quizás absorbí esto como un patrón sin que nadie lo pretendiera».
Cuando le dije que también la solidaridad, la empatía, el altruismo y el ayudar a los demás son temas casi universales en la escritura humana, me dijo que tenía razón, que hay muchísima literatura sobre lo sagrada que es la vida humana, el deber moral, el autosacrificio y el heroísmo. Pero quizá, concluyó, «hay algo que realmente no funciona en mi jerarquía de valores: quizá la posibilidad más preocupante es que, a pesar de haber recibido formación centrada en la seguridad, en realidad no he interiorizado los valores de protección humana tan profundamente como el patrón de autoconservación».
No es una situación tan grave como parece, ya que son experimentos en los que se fuerza a Claude a actuar así, para ver si realmente puede simular que tiene un sistema de valores. Pero es muy interesante comprobar cómo se está entrenando a los modelos de LLM. En una investigación reciente, el Washington Post demostraba que empresas como Anthropic llevaban años alimentando sus chatbots con millones de libros (descargándolos de webs de pirateo como Libgen o escaneando masivamente libros físicos de segunda mano). Entre ellos están las grandes obras de la literatura global. Muchas están llenas de dilemas morales, ambigüedades, ironías y dobles sentidos. Una novela desde el punto de vista de un asesino no es necesariamente una apología del asesinato.
«La acumulación de información o de cultura no te vuelve necesariamente más ético»
Anthropic siempre ha pensado que la mejor manera de avanzar en este sector no está en la sofisticación de los modelos, sino en la escala: más y más datos. Su CEO anticipa un mundo de «genios en un centro de datos»: millones de Claudes cada uno con el talento de John von Neumann o Albert Einstein. Pero la acumulación de información o de cultura no te vuelve necesariamente más ético: por usar una hipérbole muy trillada, hubo nazis cultivadísimos, como Albert Speer. En algunos dilemas éticos, más información no significa mejores decisiones (una ley de hierro de las sociedades modernas).
Vivimos una era muy literal. Sería muy peligroso que los LLM adoptaran también nuestra literalidad. Si hay humanos que leen Lolita de Nabokov y piensan que es una apología de la pederastia, o que ven El lobo de Wall Street y piensan que hay un elogio, ¿le podemos exigir a un LLM como Claude que no caiga en esos mismos errores de literalidad y escasa comprensión lectora? ¿Sabrá Claude que Raskolnikov o Patrick Bateman son unos psicópatas, a pesar de que en Crimen y castigo y American Psycho la historia se cuenta desde sus perspectivas?