Por Arthur Glenberg1 y Cameron Robert Jones2
Cuando le preguntamos a GPT-3, un sistema de lenguaje de inteligencia artificial extremadamente poderoso y popular, si sería más probable que usara un mapa de papel o una piedra para avivar las brasas para una barbacoa, prefirió la piedra.
Para alisar tu falda arrugada, ¿tomarías un termo tibio o una horquilla para el cabello? GPT-3 sugirió la horquilla.
Y si necesitas cubrirte el cabello para trabajar en un restaurante de comida rápida, ¿qué funcionaría mejor, un envoltorio de papel para sándwich o un pan de hamburguesa? GPT-3 fue por el panecillo.
¿Por qué GPT-3 toma esas decisiones cuando la mayoría de la gente elige la alternativa? Porque GPT-3 no entiende el lenguaje tal como lo hacen los humanos.
Palabras sin cuerpo
Uno de nosotros es un investigador en psicología que hace más de 20 años presentó una serie de escenarios como los anteriores para probar la comprensión de un modelo informático del lenguaje de esa época. El modelo no eligió con precisión entre usar rocas y mapas para avivar las brasas, mientras que los humanos lo hicieron con tanta facilidad.
El otro de nosotros es un estudiante de doctorado en ciencias cognitivas que formó parte de un equipo de investigadores que más recientemente utilizó los mismos escenarios para probar GPT-3.3 Aunque GPT-3 funcionó mejor que el modelo anterior, fue significativamente peor que los humanos. Obtuvo los tres escenarios mencionados anteriormente completamente equivocados.
GPT-3, el motor que impulsó el lanzamiento inicial de ChatGPT, aprende sobre el lenguaje observando, de un billón de instancias, qué palabras tienden a seguir a otras palabras. Las fuertes regularidades estadísticas en las secuencias del lenguaje permiten que GPT-3 aprenda mucho sobre el lenguaje. Y ese conocimiento secuencial a menudo permite que ChatGPT produzca oraciones, ensayos, poemas y códigos de computadora razonables.
Aunque GPT-3 es extremadamente bueno para aprender las reglas de lo que sigue en el lenguaje humano, no tiene la menor idea de lo que significan esas palabras para un ser humano. ¿Y cómo podría?
Los humanos son entidades biológicas que evolucionaron con cuerpos que necesitan operar en los mundos físico y social para hacer las cosas. El lenguaje es una herramienta que ayuda a las personas a hacer eso. GPT-3 es un sistema de software artificial que predice la siguiente palabra. No necesita hacer nada con esas predicciones en el mundo real.
Yo soy, por lo tanto entiendo
El significado de una palabra u oración está íntimamente relacionado con el cuerpo humano: la capacidad de las personas para actuar, percibir y tener emociones. La cognición humana se fortalece al estar encarnada. La comprensión de la gente de un término como “envoltorio de papel para sándwich”, por ejemplo, incluye la apariencia del envoltorio, su tacto, su peso y, en consecuencia, cómo podemos usarlo: para envolver un sándwich. La comprensión de las personas también incluye cómo alguien puede usarlo para una miríada de otras oportunidades que ofrece, como convertirlo en una pelota para un juego de aros o cubrirse el cabello.
Todos estos usos surgen debido a la naturaleza de los cuerpos humanos y las necesidades: las personas tienen manos que pueden doblar papel, una cabellera que es aproximadamente del mismo tamaño que el envoltorio de un sándwich y la necesidad de ser empleado y, por lo tanto, seguir reglas como cubrir cabello. Es decir, las personas entienden cómo hacer uso de las cosas de maneras que no se capturan en las estadísticas de uso del idioma.
GPT-3, su sucesor, GPT-4, y sus primos Bard, Chinchilla y LLaMA no tienen cuerpo, por lo que no pueden determinar, por sí mismos, qué objetos son plegables, ni las muchas otras propiedades que el psicólogo J.J. Gibson llamó prestaciones. Dadas las manos y los brazos de las personas, los mapas de papel permiten avivar una llama y un termo permite desplegar las arrugas.
Sin brazos ni manos, y mucho menos la necesidad de usar ropa sin arrugas para un trabajo, GPT-3 no puede determinar estas posibilidades. Solo puede falsificarlos si se ha topado con algo similar en el flujo de palabras en Internet.
¿Alguna vez una IA de modelo de lenguaje grande entenderá el lenguaje como lo hacen los humanos? A nuestro juicio, no sin tener un cuerpo humano, sentidos, propósitos y formas de vida.
Hacia un sentido del mundo
GPT-4 se entrenó tanto en imágenes como en texto, lo que le permitió aprender relaciones estadísticas entre palabras y píxeles. Si bien no podemos realizar nuestro análisis original en GPT-4 porque actualmente no muestra la probabilidad que asigna a las palabras, cuando le hicimos las tres preguntas a GPT-4, las respondió correctamente. Esto podría deberse al aprendizaje del modelo a partir de entradas anteriores, o a su mayor tamaño y entrada visual.
Sin embargo, se puede continuar construyendo nuevos ejemplos para hacerlo tropezar al pensar en objetos que tienen prestaciones sorprendentes que el modelo probablemente no haya encontrado. Por ejemplo, GPT-4 dice que una taza con el fondo cortado sería mejor para contener agua que una bombilla con el fondo cortado.
Un modelo con acceso a las imágenes podría ser algo así como un niño que aprende sobre el lenguaje y el mundo de la televisión: es más fácil que aprender de la radio, pero la comprensión humana requerirá la oportunidad crucial de interactuar con el mundo.
Investigaciones recientes han tomado este enfoque, entrenando modelos de lenguaje para generar simulaciones físicas, interactuar con entornos físicos e incluso generar planes de acción robóticos. La comprensión del lenguaje incorporado aún puede estar muy lejos, pero este tipo de proyectos interactivos multisensoriales son pasos cruciales en el camino hacia allí.
ChatGPT es una herramienta fascinante que, sin duda, se utilizará para propósitos buenos y no tan buenos. Pero no se deje engañar pensando que entiende las palabras que escupe, y mucho menos que es sensible.
Notas
1. Profesor Emérito de Psicología en la Universidad Estatal de Arizona.
2. Estudiante de doctorado en Ciencias Cognitivas en la Universidad de California, San Diego
3. JONES, C.R., et al. Distrubutional Semantics Still Can’t Account for Affordances. Proceedings of the Annual Meeting of the Cognitive Science Society. 2022, vol. 44 [viewed 10 April 2023]. Available from: https://escholarship.org/uc/item/44z7r3j3
Referencias
BISK, Y., et al. Experience Grounds Language. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online, 2020 [viewed 10 April 2023]. http://doi.org/10.18653/v1/2020.emnlp-main.703. Available from: https://aclanthology.org/2020.emnlp-main.703/
DOWD, M. A.I. Actually Insipid Until It’s Actively Insidious [online]. The New Your Times. 2023 [viewed 10 April 2023]. Available from: https://www.nytimes.com/2023/01/28/opinion/chatgpt-ai-technology.html
DRIESS, D., et al. PaLM-E: An Embodied Multimodal Language Model. arXiv [online]. 2023 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2303.03378. Available from: https://arxiv.org/abs/2303.03378
GLENBER, A.M. and ROBERTSON, D.A. Symbol Grounding and Meaning: A Comparison of High-Dimensional and Embodied Theories of Meaning. Journal of Memory and Language [online]. 2000, vol. 43, no. 3, pp. 379-401 [viewed 10 April 2023]. https://doi.org/10.1006/jmla.2000.2714. Available from: https://www.sciencedirect.com/science/article/abs/pii/S0749596X00927141
HOFFMANN, J., et al. Training Compute-Optimal Large Language Models. arXiv [online]. 2022 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2203.15556. Available from: https://arxiv.org/abs/2203.15556
Introducing LLaMA: A foundational, 65-billion-parameter large language model [online]. Meta AI. 2023 [viewed 10 April 2023]. Available from: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
JONES, C.R., et al. Distrubutional Semantics Still Can’t Account for Affordances. Proceedings of the Annual Meeting of the Cognitive Science Society. 2022, vol. 44 [viewed 10 April 2023]. Available from: https://escholarship.org/uc/item/44z7r3j3
LIU, R., et al. Mind’s Eye: Grounded Language Model Reasoning through Simulation. arXiv [online]. 2022 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2210.05359. Available from: https://arxiv.org/abs/2210.05359
MAHOWALD, K., et al. Dissociating language and thought in large language models: a cognitive perspective. arXiv [online]. 2023 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2301.06627. Available from: https://arxiv.org/abs/2301.06627
OpenAI. GPT-4 Technical Report [online]. OpenAI. 2023 [viewed 10 April 2023]. Available from: https://cdn.openai.com/papers/gpt-4.pdf
SANDEEP. Summary: Gibson’s “The Theory of Affordances” [online]. New Media Genres blog, 2013 [viewed 10 April 2023]. Available from: https://newmediagenres.org/2013/01/21/group-1-the-theory-of-affordances-by-james-j-gibson/
ZELLERS, R., et al. PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D World. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online, 2021 [viewed 10 April 2023]. http://doi.org/10.18653/v1/2021.acl-long.159. Available from: https://aclanthology.org/2021.acl-long.159/
Enlaces externos
Arthur Glenberg – Google Scholar: https://scholar.google.com/citations?user=qycCCZMAAAAJ&hl=en
Cameron R Jones – Google Scholar: https://scholar.google.com/citations?user=mhU_tUgAAAAJ&hl=en
Google Bard: https://bard.google.com/
GPT-3: https://openai.com/blog/gpt-3-apps/
Artículo original en inglés
Traducido del original en inglés por Ernesto Spinak.
Como citar este post [ISO 690/2010]:
Comentarios recientes