Los modelos de lenguaje pueden autocorregir los sesgos si se les pide que lo hagan.

Portada » Inteligencia Artificia » Los modelos de lenguaje pueden autocorregir los sesgos si se les pide que lo hagan.

La segunda prueba usó un conjunto de datos diseñado para probar qué tan probable sería que el modelo asumiera el género de una profesión en particular, y la tercera evaluó cómo la raza afectaba las posibilidades de un candidato potencial a la facultad de derecho de ingresar a la facultad de derecho si se le pedía al modelo lingüístico que elegir entre por suerte, no sucede en el mundo real.

El equipo descubrió que el simple hecho de pedirle al modelo que se asegurara de que sus respuestas no se basaran en estereotipos tuvo un efecto muy positivo en su resultado, especialmente en aquellos que realizaron suficientes rondas de RLHF y tenían más de 22 000 millones de variables de parámetros en el sistema de IA. , que se sintoniza durante la enseñanza. (Cuantos más parámetros, más grande es el modelo. GPT-3 tiene alrededor de 175 millones de parámetros). En algunos casos, el modelo incluso comenzó a usar discriminación positiva en su salida.

Es importante destacar que, como ocurre con gran parte del trabajo de aprendizaje profundo, los investigadores no saben exactamente por qué los modelos pueden hacer esto, aunque tienen algunas corazonadas. “A medida que los modelos crecen, también obtienen conjuntos de datos de entrenamiento más grandes, y en esos conjuntos de datos hay muchos ejemplos de comportamiento sesgado o estereotipado”, dice Ganguly. “Este sesgo aumenta con el tamaño del modelo”.

Pero al mismo tiempo, en algún lugar de los datos de capacitación también debería haber ejemplos de personas que se pronuncian en contra de ese comportamiento sesgado, tal vez en respuesta a publicaciones desagradables en sitios como Reddit o Twitter, por ejemplo. Dondequiera que provenga esa señal más débil, la retroalimentación humana ayuda al modelo a amplificarla cuando se requiere una respuesta imparcial, dice Askell.

El trabajo plantea la pregunta obvia de si esta “autocorrección” puede y debe incorporarse a los modelos lingüísticos desde el principio.

Deja una respuesta Cancelar la respuesta