Linguística para uma inteligência artificial (IA) brasileira

Por Raquel Freitag

Não faz muito tempo, as empresas de telefonia implantaram o sistema de atendimento automático, um precursor de assistente virtual que domina a tecnologia hoje. Eu queria resolver um problema simples, a fatura de internet veio com um valor errado. Liguei para o número do atendimento, mas não falava com um humano.

“Diga em poucas palavras o motivo do seu contato”, dizia uma voz bastante simpática, mas artificial. “Conta errada,” eu respondi. “Entendi: segunda via da fatura. Isso está correto?”. “Não! É sobre valor errado!” “Desculpe, não entendi sua solicitação. Vamos tentar de novo: diga o motivo do seu contato.”

E assim foi por um tempo: “erro na cobrança”, “valor incorreto”, “fatura errada”, mesmo eu falando de maneira pausada, falando com raiva, falando com emoção, e a resposta era sempre a mesma: “Desculpe, não entendi”. Eu achei melhor pagar os R$20,00 da fatura do que continuar passando raiva.

Hoje em dia, apesar dos avanços e com todas as tecnologias que temos, com todos os avanços da inteligência artificial generativa (IA Gen), infelizmente, o resultado seria muito parecido se modelo for implementado para atender pessoas no INSS (Instituto Nacional do Seguro Social), ou para transcrever teleconsultas do SUS (Sistema Único de Saúde). O motivo é que as tecnologias de língua que subsidiam esses sistemas ainda são dependentes de modelos traduzidos do inglês.

Além do trabalho de desenvolvedores, as contribuições de linguistas, profissionais que atuam não só na descrição e teorização sobre línguas, mas na constituição de amostras linguísticas de diferentes variedades de língua e de diferentes perfis de pessoas, podem ajudar a treinar uma IA com maior eficiência e com mais equidade e justiça social, sensível à diversidade linguística brasileira.

Enquanto nós, pessoas, aprendemos regras da gramática de uma língua a partir de nossas experiências, a inteligência artificial generativa é baseada em modelos de língua (e não linguagem) em larga escala (do inglês large language models, conhecidos pela sigla LLMs), que são treinados com dados linguísticos a partir dos quais são identificados padrões estatísticos de ocorrências de palavras em contextos.

Para se chegar a esses padrões, é necessário um grande volume de dados linguísticos, muito grande mesmo. LLMs são treinados com bilhões de palavras e milhões de parâmetros para chegar à precisão das respostas a ponto de deixar dúvidas se é um humano ou uma máquina, superando o teste de Turing.

Atualmente, não sabemos exatamente quais textos são selecionados para o conjunto de dados de treinamento ou quais parâmetros são controlados. As empresas desenvolvedoras não divulgam essas informações, pois o volume de dados necessários extrapola em muito o que há disponível na rede em obras de domínio público.

Na maioria das vezes, os dados são coletados sem consentimento ou infringindo direitos autorais, o que levou grandes conglomerados de mídia a iniciarem ações judiciais. A fidedignidade das respostas que obtemos, no entanto, só reforça que o conjunto de dados de treino é cada vez maior para contemplar todas as dimensões de variabilidade das línguas humanas.

As questões éticas e autorais não são as únicas ressalvas neste processo. Os custos ambientais envolvidos no treino de modelos são muito altos, e poderiam ser reduzidos com a adoção de dados estruturados para aprendizado supervisionado.

O treino de modelos pode ser realizado com dados estruturados (aprendizado supervisionado) e não estruturados (aprendizado não supervisionado). Enquanto o aprendizado não supervisionado requer um grande volume de dados, demandando cada vez mais custos computacionais e gerando impactos energéticos e ambientais, o aprendizado supervisionado, com dados estruturados e etiquetados, esse processo pode ser otimizado; mais do que isso: o aprendizado supervisionado com dados estruturados e etiquetados, como os resultantes de projetos de documentação linguística, pode resultar em menor demanda de processamento (e menos custos energéticos e ambientais) para obter resultados mais otimizados.

Os LLMs podem ser treinados com dados de língua e por cálculos de probabilidades de coocorrência de palavras, chegam a padrões e inferem regras. E para chegar a esses padrões, é necessário muitas, muitas e muitas palavras.

Por exemplo, a palavra “cobra” pode ser um substantivo, como em “A cobra mordeu João”, ou pode ser um verbo, como em “João cobra o serviço”. Para identificar quando “cobra” é verbo ou substantivo, o modelo precisa de uma grande quantidade de contextos de ocorrência dessa palavra para chegar a uma generalização. Esse é, grosso modo, o treinamento não supervisionado.

Por outro lado, é possível treinar modelos com dados categorizados: cada palavra tem uma etiqueta explicando algum aspecto do seu funcionamento de modo que é só seguir o modelo. Cada elemento linguístico recebe uma etiqueta. Nos exemplos anteriores, uma etiquetagem morfológicas seria

A[DET] cobra [SUBST] mordeu [VERBO] João[SUBST]

João[SUBST] cobra[VERBO] o[DET] serviço[SUBST]

No caso da palavra “cobra”, a etiqueta de substantivo ou verbo é atribuída por uma regra morfossintática, se tiver um elemento [DET] à esquerda, é [SUBST]; se não, é [verbo].

A etiquetagem dos dados linguísticos ainda é um processo que ainda demanda recursos humanos especializados, o que o torna, em princípio, custoso em termos de investimento. No entanto, há um grande volume de dados estruturados no Brasil que está ociosamente perdido em pendrives, discos rígidos de computador e repositórios assistemáticos. Esta é a realidade dos produtos derivados de pesquisas de documentação e descrição linguística.

A Linguística é uma das áreas com maior capilaridade no Brasil, com mais de 100 programas de pós-graduação, e com diversos projetos de pesquisa que resultam em coleções de dados linguísticos. Algumas dessas coleções são mais famosas, como a do projeto Norma Urbana Culta (NURC), que foi constituída no final dos anos 1960 e anos 1970 com amostras de fala em três situações estilísticas diferentes em cinco capitais brasileiras, e dá base para gramáticas contemporâneas do português.

Os dados linguísticos coletados para o projeto NURC subsidiaram um conjunto enorme de pesquisas científicas sobre o português brasileiro, contribuindo não só para a consolidação da linguística, como para a formação de recursos humanos especializados.

Outras coleções de dados linguísticos são mais específicas, menores, mas não menos importantes: são aquelas que foram constituídas para uma dissertação ou uma tese, e depois foram “esquecidas” em algum repositório.

Em um cenário onde linguistas têm coleções de dados linguísticos anotados, com rigor científico, e desenvolvedores estão em busca de qualquer tipo de dados linguísticos para o treino de seus modelos, uma parceria sinérgica entre as áreas é a proposta da Plataforma da Diversidade Linguística Brasileira, submetida à chamada CNPq/SECTICS/CAPES/FAPs Nº 46/2024 – Programa Institutos Nacionais de Ciência e Tecnologia – INCT (aprovada no mérito, mas não financiada) e compartilhada no SciELO Preprints em Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira.1

No Brasil, além do português e suas variedades, há mais de 250 outras línguas (indígenas, de imigração, sinalizadas), negligenciadas na inclusão digital por falta de dados estruturados. Até mesmo o português é negligenciado, uma vez que o treino de LLMs com traduções do inglês resulta em assimetrias e preconceitos.

O consórcio de laboratórios e grupos de pesquisa que se articulou para a Plataforma da Diversidade Linguística Brasileira se propôs a atuar na preparação de dados linguísticos para o treinamento de LLMs, considerando a diversidade linguística brasileira, com o desenvolvimento de um protocolo conjunto de coleta de dados linguísticos em campo, a ser replicado nos grupos e laboratórios longitudinalmente.

Também está no escopo desta proposta padronizar procedimentos de transcrição, alinhamento e etiquetagem de dados linguísticos. para a constituição de conjuntos de dados que representem a diversidade linguística brasileira.

A Plataforma da Diversidade Linguística Brasileira responde diretamente ao objetivo do Plano Brasileiro de Inteligência Artificial (PBIA)2 de “desenvolver modelos de linguagem de grande escala (LLM) para inteligência artificial em português, baseados em dados nacionais.” (PBIA, 2025, pp. 13).

Publicada recentemente, a versão final do Plano Brasileiro de Inteligência Artificial2 propõe melhorar a qualidade de vida das brasileiras e brasileiros por meio de inovações tecnológicas em áreas estratégicas como saúde, agricultura, meio ambiente e educação. Nesse contexto, as pesquisas em linguística desempenham um papel estratégico. Estudos sociolinguísticos e de processamento de linguagem natural ajudam a desenvolver tecnologias mais inclusivas, capazes de lidar com a diversidade linguística do Brasil e evitar vieses nos modelos de IA.

Especificamente, a ação 9 do PBIA propõe uma

IA baseada em dados nacionais (LLM em português), com o fomento à curadoria de conjuntos de dados nacionais e apoio ao desenvolvimento de modelos fundacionais, em particular modelos de linguagem de grande escala (LLM), especializados em português.2 (PBIA, 2025, pp. 70)

A proposta de uma Plataforma da Diversidade Linguística Brasileira responde diretamente ao desafio do PBIA de criar e aprimorar bases de dados nacionais para o treinamento de modelos de IA, com foco na redução da dependência de dados estrangeiros e no reconhecimento das especificidades linguísticas e culturais do Brasil, tal com preconizado.

A proposta de curadoria da Plataforma da Diversidade Linguística Brasileira, que reúne dados estruturados e documentados de diferentes variedades do português brasileiro e de outras línguas do Brasil, está diretamente alinhadas às metas da ação para ampliar a oferta de conjuntos de dados nacionais e permitir o desenvolvimento de um LLM que seja sensível à diversidade real do uso da língua no Brasil.

Em vez de replicar padrões de traduções do inglês, os dados estruturados sob curadoria da Plataforma da Diversidade Linguística Brasileira possibilitam o treino de LLMs que reflitam a realidade linguística brasileira, essencial para o sucesso de aplicações tecnológicas nas áreas de saúde, educação, justiça, inclusão digital e outros setores estratégicos.

Dados estruturados de documentação linguística falada de diferentes variedades do português brasileiro são fundamentais para o sucesso da Ação de Impacto 1 do PBIA — o desenvolvimento de um sistema de IA para transcrição automática de teleconsultas no SUS.

Sem dados representativos da diversidade linguística presente no Brasil, modelos de transcrição não alcançaram a precisão necessária para o reconhecimento da fala, que é sensível a diferenças regionais, etárias, sociais. Sem essa diversidade nos dados de treinamento, há alto risco de que o sistema desenvolvido seja impreciso ou excludente, especialmente em regiões onde o português falado se afasta da norma hegemônica.

Para o desenvolvimento de “sistema de IA para automatizar a transcrição de teleconsultas”2 (PBIA, pp. 47), a documentação linguística com anotação estruturada, com marcação de pausas, entonação, hesitações e sobreposição de fala, pode melhorar a acurácia dos modelos em contextos reais de teleatendimento, que envolvem linguagem espontânea e, muitas vezes, condições acústicas desfavoráveis, com ruídos e sobreposições de fala.

Não podemos esquecer que a Libras é uma língua reconhecida, e por lei há necessidade de atendimento sinalizado no serviço público. Sistemas de IA precisam considerar também línguas sinalizadas no Brasil (e a Libras é apenas uma delas), para o que é necessário dados estruturados de documentação linguística também em línguas sinalizadas.

Além de sistemas de IA para a transcrição de fala e de sinalização, a efetivação da Ação de Impacto 7 do PBIA, voltada à criação de uma plataforma de IA para promoção da saúde das pessoas idosas, precisa de dados estruturados deste perfil etário, considerando não só as variedades regionais e socioeconômicas, mas também os efeitos das dificuldades cognitivas decorrentes do envelhecimento.

Modelos de linguagem treinados com base em um conjunto de dados deste perfil linguístico são essenciais para uma comunicação mais empática, clara e precisa entre idosos e sistemas automatizados de saúde.

Avançando ainda mais, dados linguísticos estruturados podem apoiar o desenvolvimento de ferramentas de triagem precoce de doenças neurodegenerativas, ao identificar padrões linguísticos associados a sintomas iniciais de Alzheimer, Parkinson e outras demências, como empobrecimento lexical, hesitações, alterações na fluência e na coerência do discurso.

Como podemos ver, a diversidade dos dados linguísticos é essencial para que LLMs garantam justiça social e equidade, com representatividade de falares de diferentes regiões e grupos sociais.

A Plataforma da Diversidade Linguística Brasileira é uma proposta para juntar especialistas em dados estruturados das línguas do Brasil, em diferentes situações e contextos de uso e desenvolvedores de aplicações baseadas em LLM.

Dada a demanda do PBIA, decidimos compartilhar a proposta tal como foi submetida à chamada CNPq/SECTICS/CAPES/FAPs Nº 46/2024 – Programa Institutos Nacionais de Ciência e Tecnologia – INCT, junto com os pareceres, a fim de estimular e contribuir para o aprimoramento de outras propostas, e para mostrar que, nós, linguistas, temos o que oferecer ao Plano Brasileiro de Inteligência Artificial e contribuir para a melhoraria a qualidade de vida das brasileiras e brasileiros.

Notas

1. FREITAG, R.M.K. Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira. SciELO Preprints [online]. 2025. [viewed 18 July 2025]. https://doi.org/10.1590/SciELOPreprints.11957. Available from: https://preprints.scielo.org/index.php/scielo/preprint/view/11957/version/12598

2. Plano Brasileiro de Inteligência Artificial (PBIA) [online]. MCTI — Ministério da Ciência, Tecnologia e Inovação. 2025 [viewed 18 July 2025]. Available from: https://www.gov.br/mcti/pt-br/centrais-de-conteudo/publicacoes-mcti/plano-brasileiro-de-inteligencia-artificial/pbia_mcti_2025.pdf

Referências

BENDER, E., et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: FAccT ’21: 2021 ACM Conference on Fairness, Accountability, and Transparency, Virtual Event, 2021 [viewed 18 July 2025]. https://doi.org/10.1145/3442188.3445922. Available from: https://dl.acm.org/doi/10.1145/3442188.3445922

CASTILHO, A.T. Gramática do Português Brasileiro: fundamentos, perspectivas. Cadernos de Linguística [online]. 2021, vol. 2, no. 1, e252–e252, ISSN: 2675-4916 [viewed 18 July 2025]. https://doi.org/10.25189/2675-4916.2021.v2.n1.id252. Available from: https://cadernos.abralin.org/index.php/cadernos/article/view/252

FERRO, M. et al. Towards a sustainable artificial intelligence: A case study of energy efficiency in decision tree algorithms. Concurrency and Computation: Practice and Experience [online]. 2021, vol. 33, e6815, ISSN: 1532-0634 [viewed 18 July 2025]. https://doi.org/10.1002/cpe.6815. Available from: https://onlinelibrary.wiley.com/doi/10.1002/cpe.6815

FREITAG, R. Variação linguística: Diversidade e cotidiano. São Paulo: Contexto, 2025.

FREITAG, R., et al. Função na língua, generalização e reprodutibilidade. Revista da ABRALIN [online]. 2021, vol. 20, no. 1, pp. 1–27, ISSN: 0102-7158 [viewed 18 July 2025]. https://doi.org/10.25189/rabralin.v20i1.1827. Available from: https://revista.abralin.org/index.php/abralin/article/view/1827

FREITAG, R.M.K. Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira. SciELO Preprints [online]. 2025. [viewed 18 July 2025]. https://doi.org/10.1590/SciELOPreprints.11957. Available from: https://preprints.scielo.org/index.php/scielo/preprint/view/11957/version/12598

FREITAG, R.M.K. Preconceito linguístico para humanizar as máquinas. Cadernos de Linguística [online]. 2021, vol. 2, no. 4, e495, ISSN: 2675-4916 [viewed 18 July 2025]. https://doi.org/10.25189/2675-4916.2021.v2.n4.id495. Available from: https://cadernos.abralin.org/index.php/cadernos/article/view/495

GALDINO, J.C. and OLIVEIRA JR, M. Prosódia e síntese da fala: uma revisão integrativa da literatura. Revista da ABRALIN [online]. 2023, vol. 22, no. 1, pp. 1–15 [viewed 18 July 2025]. https://doi.org/10.25189/rabralin.v22i1.2130. Available from: https://revista.abralin.org/index.php/abralin/article/view/2130

HÜBNER, L.C., et al. Nomeação e aprendizagem verbal na doença de Alzheimer, no comprometimento cognitivo leve e no envelhecimento sadio com baixa escolaridade. Arquivos de Neuro-Psiquiatria [online]. 2018, vol. 76, pp. 93–99, ISSN: 0004-282X [viewed 18 July 2025]. https://doi.org/10.1590/0004-282X2017019. Available from: https://www.scielo.br/j/anp/a/F6Kf9M7WVBsnpcFMKQXYcnC/

OLIVEIRA JR., M. NURC Digital: Um protocolo para a digitalização, anotação, arquivamento e disseminação do material do Projeto da Norma Urbana Linguística Culta (NURC). Chimera: Revista de Corpus de Lenguas Romances y Estudios Lingüísticos [online]. 2016, vol. 3, no. 2, pp. 149–174, ISSN e: 2386 2629 [viewed 18 July 2025]. https://doi.org/10.15366/chimera2016.3.2.004. Available from: https://revistas.uam.es/chimera/article/view/6519

Plano Brasileiro de Inteligência Artificial (PBIA) [online]. MCTI — Ministério da Ciência, Tecnologia e Inovação. 2025 [viewed 18 July 2025]. Available from: https://www.gov.br/mcti/pt-br/centrais-de-conteudo/publicacoes-mcti/plano-brasileiro-de-inteligencia-artificial/pbia_mcti_2025.pdf

QUADROS, R.M., et al. Inventário Nacional de Libras. Fórum Linguístico [online]. 2020, vol. 17, no. 4, pp. 5457–5474, ISSN: 1984-8412 [viewed 18 July 2025]. https://doi.org/10.5007/1984-8412.2020.e77334. Available from: https://periodicos.ufsc.br/index.php/forum/article/view/77334

TORRENT, T. Plano brasileiro para turbinar IA ignora conceito básico da tecnologia. Tilt [online]. 2025 [viewed 18 July 2025]. Available from: https://www.uol.com.br/tilt/analises/ultimas-noticias/2025/06/23/plano-brasileiro-para-turbinar-ia-ignora-conceito-basico-da-tecnologia.htm

 

Sobre Raquel Freitag

Fotografia de Raquel Freitag

Raquel Freitag é linguista e professora titular da Universidade Federal de Sergipe (UFS), atua nos Programas de Pós-Graduação em Letras e Psicologia. Doutora em Linguística pela Universidade Federal de Santa Catarina, pesquisa variação linguística, processamento linguístico, e reprodutibilidade na ciência. Coordenadora do GT de Sociolinguística da ANPOLL (2023-2025). Autora de Variação linguística: Diversidade e cotidiano, publicado pela editora Contexto (2025).

 

 

Como citar este post [ISO 690/2010]:

FREITAG, R. Linguística para uma inteligência artificial (IA) brasileira [online]. SciELO em Perspectiva, 2025 [viewed ]. Available from: https://blog.scielo.org/blog/2025/07/18/linguistica-para-uma-inteligencia-artificial-ia-brasileira/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation