IA generativa más justa: nuevo método reduce sesgos de género y etnia en las historias
Un nuevo estudio revela un método para mitigar los sesgos de género y etnia en las historias generadas por IA, utilizando las propias explicaciones del modelo para mejorar la representación demográfica.

Historias con Menos Sesgos
Investigadores han desarrollado un novedoso método, BAME (Bias Analysis and Mitigation through Explanation), para reducir los sesgos demográficos en las historias generadas por modelos de lenguaje como Claude 3.5 Sonnet, Llama 3.1 70B Instruct y GPT-4 Turbo. El sistema analiza las explicaciones generadas por los propios modelos para identificar y mitigar sesgos de género y etnia en las narrativas, logrando mejoras de entre un 2% y un 20% en la representación.
El Poder de la Autoexplicación
BAME se basa en la idea de que los modelos pueden proporcionar información sobre su propio razonamiento, lo que permite una ingeniería de prompts más precisa. En lugar de modificar los parámetros del modelo, BAME utiliza las explicaciones para guiar la generación de historias, evitando la perpetuación de estereotipos presentes en los datos de entrenamiento. El estudio abarcó 25 categorías ocupacionales y múltiples dimensiones demográficas, revelando patrones persistentes de sobre-representación y sub-representación ligados a estereotipos.
Hacia una IA Generativa más Ética
Este avance representa un paso significativo hacia una IA generativa más ética y transparente. Al aprovechar las capacidades de autoexplicación de los modelos, se abre la puerta a una generación de contenido más equitativa y representativa, crucial para un futuro donde la IA juegue un papel cada vez más importante en la creación de narrativas.