Uno de los principales escollos a los que se enfrentan los modelos de lenguaje (LLMs) es que para crecer necesitan engullir cada vez más información, pero la información de calidad a la cual pueden acceder se está agotando. Es por eso que las grandes tecnológicas -que invierten cientos de millones de dólares para desarrollar estos sistemas de IA- se han visto obligados a crear información sintética. Es decir, ponen a sus sistemas informáticos a producir nueva información sobre la información disponible. Una técnica que a simple vista parece un sinsentido. Y aparentemente varias investigaciones están demostrando que sí es un sinsentido.
Un equipo de investigadores de la Universidad de Cambridge usó un análisis matemático para demostrar que todos los modelos de lenguaje alimentados con datos sintéticos tienden al colapso. Y esto sucede tanto en lo que se refiere a texto como a imágenes. Según Zakhar Shumaylov, uno de los investigadores de Cambridge, la conclusión del estudio es que hay que tener mucho cuidado con los datos que alimentan a los LLMs, porque si no lo más probable es que terminen fallando.
Para la investigación se utilizó un LLM para crear entradas similares a Wikipedia y luego entrenaron nuevas iteraciones del modelo (data sintética) en base al modelo anterior. A medida que la información generada por la IA contaminó el conjunto, los resultados del modelo se convirtieron en un galimatías. La novena iteración (iteración es la repetición de un proceso con el fin de alcanzar un resultado deseado) del modelo completó un artículo al estilo Wikipedia sobre las torres de las iglesias inglesas con un tratado sobre los colores de las colas de conejos.
Más sutilmente, el estudio publicado en la revista científica Nature el 24 de Julio, demostró que incluso antes del colapso total, el aprendizaje de textos derivados de la IA hacía que los modelos olvidaran la información mencionada en sus conjuntos de datos a medida que sus resultados se volvían más homogéneos.
Esta es una preocupación cuando se trata de crear modelos de IA que representen a todos los grupos de manera justa, porque los eventos de baja probabilidad (que van quedando de lado) a menudo reportan a grupos marginados, sostiene Shumailov.
Los modelos de lenguaje funcionan construyendo asociaciones entre tokens (palabras o partes de palabras) en grandes extensiones de texto extraídas de internet. Y generan texto según cuál sería la próxima palabra más probable estadísticamente.
Para demostrar el colapso del modelo, los investigadores juzgaron el rendimiento de cada modelo dándole un párrafo inicial y pidiéndole que predijera las siguientes oraciones al modelo entrenado con datos sintéticos. Luego compararon el resultado con el del modelo entrenado con resultados reales. Según Shumaylov, esperaban encontrar errores pero se sorprendieron al ver lo mal que evolucionaban los resultados rápidamente.
El colapso ocurre porque cada modelo toma muestras solo de los datos con los que está entrenado. Esto significa que es menos probable que se reproduzcan palabras poco frecuentes de los datos originales y aumenta la probabilidad de que aparezcan las más comunes. Cada modelo aprende de la predicción del modelo anterior y los errores se amplifican. “Con el tiempo esos errores terminan acumulándose unos encima de otros hasta el punto en que el modelo básicamente solo aprende errores y nada más”, dice Shumailov.
“El problema es análogo a la endogamia en una especie”, dice Hany Farid, investigador de la Universidad de Berkeley, en California. “Si una especie se aparea con su propia descendencia y no diversifica su acervo genético, puede provocar un colapso de la especie”. Una investigación de Fadir demuestra que lo que sucede con los textos en los LLMs también sucede con las imágenes, produciendo espeluznantes distorsiones de la realidad.
Según Shumailov, el colapso de los modelos no significa que los LLMs dejarán de funcionar, sino que cada vez será más caro hacer que funcionen bien. A medida que los datos sintéticos se acumulen en la web, es probable que se rompan las leyes de escalamiento que establecen que los modelos deberían mejorar a medida que se alimenten con más datos. Cuando Shumailov y su equipo alimentaron el modelo con un 10% de datos reales, notaron que el colapso se producía más lentamente. Shumailov sostiene que se debería establecer algún mecanismo para separar los datos sintéticos de los datos reales, algo así como marcas de agua, lo que requeriría una coordinación sin precedentes por parte de las grandes empresas tecnológicas. Además, Shumailov sostiene que debería encontrarse formas de incentivar a los creadores para que generen más contenido para alimentar correctamente los LLMs. Y también sugiere que sería útil alguna forma de filtrar los datos. Es decir, que los usuarios puedan seleccionar y marcar los textos generados por IA antes de que sean devorados por los LLMs.