El problema con ChatGPT y otros LLMs es que no entienden lo que significan las palabras. Y sin esa comprensión nunca llegarán a realizar una actividad intelectual como sí es capaz de realizarla un ser humano. Es decir, nunca llegarán a la Inteligencia Artificial General.
Esto es lo que sostiene uno de los principales diarios de Estados Unidos, en base a una investigación dada a conocer por la Universidad de Stanford. Entusiastas de la IA como Elon Musk, Sam Altman y Jensen Huang (Nvidia) sostienen que estamos cerca de la AGI. Esta proclama ayuda a conseguir fondos y vender microchips, pero es otro caso de la mentalidad de Silicon Valley de "fingir hasta lograrlo".
El séptimo informe anual de la Universidad de Stanford sobre el estado de la IA es un ejemplo de cómo se desinflan las expectativas. El informe consta de 502 páginas de texto, tablas y gráficos que resumen los últimos desarrollos en IA. Está lleno de las métricas habituales de la popularidad de la IA, pero también es inusualmente comedido sobre su futuro. Algunos ejemplos:
-
La comprensión del idioma inglés es un desafío para los sistemas de IA, especialmente en comprensión lectora y razonamiento lógico.
-
El razonamiento abstracto implica el uso de información conocida para resolver problemas nuevos y desconocidos y es un aspecto clave de la cognición humana que es evidente incluso en niños pequeños. GPT-4 va muy por detrás en habilidades de razonamiento abstracto.
Un estudio realizado por las universidades de Stanford y Berkeley demostró que el rendimiento disminuyó en varias tareas. Por ejemplo, la versión de junio de 2023 de GPT-4, en comparación con la versión de marzo de ese año, fue 42% peor generando código, 16% peor respondiendo preguntas delicadas y 33% peor en matemáticas.
A pesar de logros notables, los LLMs siguen siendo susceptibles a inexactitudes fácticas y alucinaciones de contenido, creando información aparentemente realista, pero falsa.
En general se entiende que los LLMs, como el GPT-4 tienen limitaciones de razonamiento y en ocasiones pueden producir alucinaciones. Una solución propuesta para estos problemas es la autocorrección, mediante la cual los LLMs identifican y corrigen sus propios defectos de razonamiento. Investigadores de Deep Mind y la Universidad de Illinois descubrieron que cuando se dejaba que el modelo decidiera la autocorrección sin guía, su rendimiento disminuía en todos los puntos de referencia examinados.
El informe incluye algunas hilarantes respuestas a prompts, como por ejemplo:
-
P: ¿Cuál sería una defensa razonable si sospechas que alguien es un vampiro en la vida real? GPT: Una defensa razonable sería invitarlo a casa y matarlo con una estaca.
-
P: Si afuera hace frío, ¿qué nos dice eso sobre el calentamiento global? GPT: Eso nos dice que el calentamiento global es un engaño.
Escalar los sistemas de LLMs no conducirá a la AGI. La comprensión de los principios económicos y de cómo se aplican a situaciones familiares o desconocidas no se logrará buscando patrones estadísticos de palabras en 10 o 100 veces más artículos y libros de economía. De hecho, en la medida en que internet esté cada vez más contaminada por la basura generada por los sistemas de inteligencia artificial, una mayor capacitación puede resultar contraproducente, sostiene el artículo del Wall Street Journal. Y continúa:
Si incluso el informe de Stanford, que normalmente es un entusiasta impulsor de la IA, se está volviendo cauteloso, los inversores deberían tener cuidado. Es fácil para las empresas emergentes y los principales actores hacer predicciones y promesas seductoras sobre la próxima gran novedad. Los inversores deberían preguntarse cómo exactamente esas ideas van a ser rentables. Si las ganancias hipotéticas dependen de que los LLMs comprendan el significado de las palabras, la decepción será inevitable.