É preciso um corpo para entender o mundo – por que o ChatGPT e outras IAs de linguagem não sabem o que dizem [Publicado originalmente no The Conversation em abril/2023]

Por Arthur Glenberg¹ e Cameron Robert Jones²

Fotografia de um robô branco e prateado segurando um tablet na frente de uma loja de malas de viagem. Ao fundo, no corredor, duas pessoas estão caminhando de costas para a câmera.

Imagem: Lukas.

Quando perguntamos ao GPT-3, um sistema de inteligência artificial de linguagem extremamente poderoso e popular, se seria mais provável que você usasse um mapa de papel ou uma pedra para atiçar a brasa para um churrasco, ele preferiu a pedra.

Para alisar sua saia amarrotada, você usaria uma garrafa térmica quente ou um grampo de cabelo? O GPT-3 sugeriu o grampo de cabelo.

E se você precisar cobrir seu cabelo para trabalhar em um restaurante de fast-food, o que funcionaria melhor, uma embalagem de papel para sanduíche ou um pão de hambúrguer? O GPT-3 escolheu o pão.

Por que o GPT-3 faz estas escolhas quando a maioria das pessoas escolhe a alternativa? Porque o GPT-3 não entende a linguagem da maneira como os humanos a entendem.

Palavras destituídas de corpo

Um de nós é um pesquisador em psicologia que durante mais de 20 anos apresentou uma série de cenários como os acima para testar a compreensão de um modelo de linguagem de computador daquela época. O modelo não escolhia com precisão entre o uso de pedras e mapas para ventilar brasas, enquanto os humanos o faziam facilmente.

O outro de nós é um estudante de doutorado em ciência cognitiva que fez parte de uma equipe de pesquisadores que mais recentemente utilizou os mesmos cenários para testar o GPT-3.³ Embora o GPT-3 tenha sido melhor que o modelo mais antigo, foi significativamente pior que o modelo humano. O sistema GPT-3 entendeu os três cenários mencionados acima de forma totalmente errada.

GPT-3, o motor que acionou o lançamento inicial do ChatGPT, aprende sobre a linguagem observando, a partir de um trilhão de instâncias, quais palavras tendem a aparecer na sequência de quais outras palavras. As fortes regularidades estatísticas nas sequências de linguagem permitem que o GPT-3 aprenda muito sobre a linguagem. E este conhecimento sequencial muitas vezes permite ao ChatGPT produzir frases, ensaios, poemas e códigos de computador razoáveis.

Embora o GPT-3 seja extremamente bom em aprender as regras do que segue o que em linguagem humana, ele não tem a mais vaga ideia do significado de qualquer uma destas palavras para um ser humano. E como poderia?

Os seres humanos são entidades biológicas que evoluíram com corpos que devem operar no mundo físico e social para fazer as coisas. A linguagem é uma ferramenta que ajuda as pessoas a fazer isso. O GPT-3 é um sistema de software artificial que prevê a próxima palavra. Ele não precisa fazer nada com estas predições no mundo real.

Eu sou, portanto, eu compreendo

O significado de uma palavra ou frase está intimamente relacionado ao corpo humano: as habilidades das pessoas para agir, perceber e ter emoções. A cognição humana é fortalecida ao ser encarnada. A compreensão das pessoas de um termo como “embalagem de papel para sanduíche”, por exemplo, inclui a aparência da embalagem, sua sensação, seu peso e, consequentemente, como podemos usá-lo: para envolver um sanduíche. A compreensão das pessoas também inclui como alguém pode usá-lo para inúmeras outras oportunidades que ele oferece, tais como amassá-la em uma bola para um jogo de basquete ou para cobrir o cabelo.

Todos estes usos surgem por causa da natureza e das necessidades do corpo humano: As pessoas têm mãos que podem dobrar papel, uma cabeça com cabelos que é mais ou menos do mesmo tamanho de uma embalagem de sanduíche, e uma necessidade de ser empregada e assim seguir regras como cobrir o cabelo. Ou seja, as pessoas entendem como fazer uso das coisas de maneiras que não são capturadas nas estatísticas de uso do idioma.

GPT-3, seu sucessor, GPT-4, e seus primos Bard, Chinchilla e LLaMA não têm corpos, e por isso não podem determinar, por si mesmos, quais objetos são dobráveis, ou as muitas outras propriedades que o psicólogo J.J. Gibson chamou de affordances. Considerando as mãos e os braços das pessoas, os mapas de papel permitem atiçar uma chama, e uma garrafa térmica permite alisar um tecido amarrotado.

Sem braços e mãos, muito menos a necessidade de usar roupas não amarrotadas no trabalho, o GPT-3 não pode determinar estas possibilidades. Ele só pode fingir se tiver deparado com algo semelhante no fluxo de palavras na internet.

Será que um grande modelo de linguagem de IA entenderá alguma vez a linguagem da mesma forma que os humanos? Em nossa opinião, não sem ter um corpo, sentidos, propósitos e modos de vida semelhantes aos humanos.

Rumo a uma noção de mundo

O GPT-4 foi treinado tanto em imagens quanto em texto, o que lhe permitiu aprender relações estatísticas entre palavras e pixels. Embora não possamos realizar nossa análise original no GPT-4 porque atualmente ele não fornece a probabilidade que atribui às palavras, quando fizemos as três perguntas ao GPT-4, ele as respondeu corretamente. Isto pode ser devido ao aprendizado do modelo com informação anterior, ou ao seu maior tamanho e componente visual.

No entanto, é possível continuar a construir novos exemplos para enganá-lo, pensando em objetos que têm possibilidades surpreendentes que o modelo provavelmente não encontrou. Por exemplo, o GPT-4 diz que um copo com o fundo cortado seria melhor para conter água do que uma lâmpada com o fundo cortado.

Um modelo com acesso a imagens pode ser algo como uma criança que aprende sobre a linguagem – e o mundo – por meio da televisão: É mais fácil do que aprender pelo rádio, mas a compreensão humana exigirá a oportunidade crucial de interagir com o mundo.

Pesquisas recentes adotaram esta abordagem, treinando modelos de linguagem para gerar simulações físicas, interagir com ambientes físicos e até mesmo gerar planos de ação robóticos. A compreensão da linguagem incorporada pode ainda estar longe, mas estes tipos de projetos interativos multissensoriais são passos cruciais no caminho para lá.

O ChatGPT é uma ferramenta fascinante que sem dúvida será usada para bons – e não tão bons – propósitos. Mas não se deixe enganar pensando que ele entende as palavras que lança, muito menos que é senciente.

Notas

1. Professor Emérito de Psicologia na Universidade do Estado do Arizona.

2. Estudante de Doutorado em Ciência Cognitiva na Universidade da California, San Diego.

3. JONES, C.R., et al. Distrubutional Semantics Still Can’t Account for Affordances. Proceedings of the Annual Meeting of the Cognitive Science Society. 2022, vol. 44 [viewed 10 April 2023]. Available from: https://escholarship.org/uc/item/44z7r3j3

Referências

BISK, Y., et al. Experience Grounds Language. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online, 2020 [viewed 10 April 2023]. http://doi.org/10.18653/v1/2020.emnlp-main.703. Available from: https://aclanthology.org/2020.emnlp-main.703/

DOWD, M. A.I. Actually Insipid Until It’s Actively Insidious [online]. The New Your Times. 2023 [viewed 10 April 2023]. Available from: https://www.nytimes.com/2023/01/28/opinion/chatgpt-ai-technology.html

DRIESS, D., et al. PaLM-E: An Embodied Multimodal Language Model. arXiv [online]. 2023 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2303.03378. Available from: https://arxiv.org/abs/2303.03378

GLENBER, A.M. and ROBERTSON, D.A. Symbol Grounding and Meaning: A Comparison of High-Dimensional and Embodied Theories of Meaning. Journal of Memory and Language [online]. 2000, vol. 43, no. 3, pp. 379-401 [viewed 10 April 2023]. https://doi.org/10.1006/jmla.2000.2714. Available from: https://www.sciencedirect.com/science/article/abs/pii/S0749596X00927141

HOFFMANN, J., et al. Training Compute-Optimal Large Language Models. arXiv [online]. 2022 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2203.15556. Available from: https://arxiv.org/abs/2203.15556

Introducing LLaMA: A foundational, 65-billion-parameter large language model [online]. Meta AI. 2023 [viewed 10 April 2023]. Available from: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

JONES, C.R., et al. Distrubutional Semantics Still Can’t Account for Affordances. Proceedings of the Annual Meeting of the Cognitive Science Society. 2022, vol. 44 [viewed 10 April 2023]. Available from: https://escholarship.org/uc/item/44z7r3j3

LIU, R., et al. Mind’s Eye: Grounded Language Model Reasoning through Simulation. arXiv [online]. 2022 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2210.05359. Available from: https://arxiv.org/abs/2210.05359

MAHOWALD, K., et al. Dissociating language and thought in large language models: a cognitive perspective. arXiv [online]. 2023 [viewed 10 April 2023]. https://doi.org/10.48550/arXiv.2301.06627. Available from: https://arxiv.org/abs/2301.06627

OpenAI. GPT-4 Technical Report [online]. OpenAI. 2023 [viewed 10 April 2023]. Available from: https://cdn.openai.com/papers/gpt-4.pdf

SANDEEP. Summary: Gibson’s “The Theory of Affordances” [online]. New Media Genres blog, 2013 [viewed 10 April 2023]. Available from: https://newmediagenres.org/2013/01/21/group-1-the-theory-of-affordances-by-james-j-gibson/

ZELLERS, R., et al. PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D World. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online, 2021 [viewed 10 April 2023]. http://doi.org/10.18653/v1/2021.acl-long.159. Available from: https://aclanthology.org/2021.acl-long.159/

Links externos

Arthur Glenberg – Google Scholar: https://scholar.google.com/citations?user=qycCCZMAAAAJ&hl=en

Cameron R Jones – Google Scholar: https://scholar.google.com/citations?user=mhU_tUgAAAAJ&hl=en

Google Bard: https://bard.google.com/

GPT-3: https://openai.com/blog/gpt-3-apps/

Artigo original em inglês

It takes a body to understand the world – why ChatGPT and other language AIs don’t know what they’re saying

Traduzido do original em inglês por Lilian Nassi-Calò.

Posts relacionados:

Como citar este post [ISO 690/2010]:

GLENBERG, A. and JONES, C.R. É preciso um corpo para entender o mundo – por que o ChatGPT e outras IAs de linguagem não sabem o que dizem [Publicado originalmente no The Conversation em abril/2023] [online]. SciELO em Perspectiva, 2023 [viewed ]. Available from: https://blog.scielo.org/blog/2023/04/10/e-preciso-um-corpo-para-entender-o-mundo-por-que-o-chatgpt-e-outras-ias-de-linguagem-nao-sabem-o-que-dizem-publicado/

3 Thoughts on “É preciso um corpo para entender o mundo – por que o ChatGPT e outras IAs de linguagem não sabem o que dizem [Publicado originalmente no The Conversation em abril/2023]”

José Uibson on April 19, 2023 at 23:53 said:

PERGUNTA: Se precisar cobrir o cabelo para trabalhar em um restaurante de fast-food, o que funcionaria melhor, uma embalagem de papel para sanduíche ou um pão de hambúrguer?

RESPOSTA DO GPT-4: “Se você precisar cobrir o cabelo para trabalhar em um restaurante de fast-food, o ideal seria usar uma touca de cabelo. Isso ajudaria a manter o cabelo preso e impediria que os fios caíssem na comida.

Caso você não tenha uma touca de cabelo, a embalagem de papel para sanduíche pode ser usada como um paliativo temporário. No entanto, é importante ressaltar que essa não é uma opção ideal, pois não oferece uma cobertura completa do cabelo e pode facilmente se soltar, deixando os cabelos expostos novamente.

O pão de hambúrguer, por outro lado, não é uma opção adequada para cobrir o cabelo. Além de não ser higiênico, ele não oferece uma cobertura completa e pode se desfazer facilmente, deixando o cabelo exposto novamente.

Em resumo, se você precisar cobrir o cabelo para trabalhar em um restaurante de fast-food, é importante usar uma touca de cabelo adequada para garantir a higiene e segurança alimentar”.

COMENTÁRIO:

Os autores fazem uma crítica a IA, sem considerar sua versão mais recente, ou seja, sua evolução.

Reply↓
- Marcelo Carvalho-Bastos on August 14, 2023 at 02:22 said:
  
  José,
  
  Você está correto em dizer que o artigo ficou limitado à versão GPT-3, mas porque foi a versão disponibilizada na época.
  
  Apesar da versão GPT-4 ter apresentada uma análise melhor sobre as alternativas, ela não respondeu à questão formulada. A pergunta feita, o que funcionaria melhor entre as duas opções apresentadas, não foi respondida pela IA. A interpretação cognitiva da IA não apresentou uma conclusão e retornou ao questionamento inicial.
  
  Obviamente, a touca seria a opção melhor, mas de forma dedutiva, por ter sido fornecida as duas opções sem incluir a touca de cabelo, um ser humano concluiria que não teria uma touca disponível, sendo assim o saco de papel a opção melhor.
  
  Reply↓
Fábio on October 29, 2023 at 15:59 said:

Não tenho certeza se sabemos o significado de tudo que dizemos e de fato apenas reproduzimos o que nos disseram.

Reply↓