Lingüística para una inteligencia artificial (IA) brasileña

Por Raquel Freitag

No hace mucho, las compañías telefónicas implementaron sistemas de contestador automático, precursores del asistente virtual que domina la tecnología actual. Quería resolver un problema sencillo: mi factura de internet tenía un importe incorrecto. Llamé al número de atención al cliente, pero no hablaba con una persona.

“Por favor, explique brevemente el motivo de su contacto”, dijo una voz amable pero artificial. “Factura equivocada,” respondí. “Entiendo: una segunda copia de la factura. ¿Es correcto?” “¡No! ¡Se trata de un importe incorrecto!” “Lo siento, no entendí su solicitud. Intenté de nuevo: dígame el motivo de su contacto”.

Y así durante un rato: “error de facturación”, “importe incorrecto”, “factura equivocada”, aunque hablaba despacio, con enfado, con emoción, y la respuesta siempre era la misma: “Lo siento, no entendí”. Pensé que era mejor pagar la factura de R$20.00 que seguir enfadado.

Hoy en día, a pesar de los avances tecnológicos disponibles, con todos los avances en inteligencia artificial generativa (IA Gen), lamentablemente, el resultado sería muy similar si el modelo se implementara para atender a personas en el INSS (Instituto Nacional de Seguridad Social) o para transcribir teleconsultas para el SUS (Sistema Único de Salud). Esto se debe a que las tecnologías lingüísticas que sustentan estos sistemas aún dependen de modelos traducidos del inglés.

Además del trabajo de los desarrolladores, las contribuciones de los lingüistas — profesionales que trabajan no solo describiendo y teorizando sobre idiomas, sino también recopilando muestras lingüísticas de diferentes variedades de la lengua y perfiles humanos — pueden ayudar a entrenar la IA de forma más eficiente, con mayor equidad y justicia social, teniendo en cuenta la diversidad lingüística brasileña.

Mientras que los humanos aprendemos las reglas gramaticales de un idioma a partir de nuestras experiencias, la inteligencia artificial generativa se basa en modelos lingüísticos a gran escala (y no lingüísticos), (del inglés large language models, conocidos por la sigla LLMs), que se entrenan con datos lingüísticos a partir de los cuales se identifican patrones estadísticos de ocurrencia de palabras en contexto.

Alcanzar estos patrones requiere un gran volumen de datos lingüísticos, un volumen realmente enorme. Los LLM se entrenan con miles de millones de palabras y millones de parámetros para lograr una precisión tal que no deja lugar a dudas sobre si se trata de un humano o de una máquina, superando así la prueba de Turing.

Actualmente, desconocemos con exactitud qué textos se seleccionan para el conjunto de datos de entrenamiento ni qué parámetros se controlan. Los desarrolladores no divulgan esta información porque el volumen de datos requerido supera con creces la disponibilidad en línea de obras de dominio público.

En la mayoría de los casos, los datos se recopilan sin consentimiento o infringen derechos de autor, lo que ha llevado a grandes conglomerados de medios a presentar demandas. Sin embargo, la fiabilidad de las respuestas que obtenemos refuerza la necesidad de un conjunto de datos de entrenamiento cada vez más amplio que abarque todas las dimensiones de la variabilidad del lenguaje humano.

Las cuestiones éticas y de derechos de autor no son las únicas limitaciones de este proceso. Los costos ambientales que implica el entrenamiento de modelos son muy elevados y podrían reducirse mediante la adopción de datos estructurados para el aprendizaje supervisado.

El entrenamiento de modelos puede realizarse con datos estructurados (aprendizaje supervisado) y no estructurados (aprendizaje no supervisado). Mientras que el aprendizaje no supervisado requiere un gran volumen de datos, lo que exige costos computacionales cada vez mayores y genera impactos energéticos y ambientales, el aprendizaje supervisado, con datos estructurados y etiquetados, puede optimizar este proceso. Además, el aprendizaje supervisado con datos estructurados y etiquetados, como el resultante de proyectos de documentación lingüística, puede resultar en menores demandas de procesamiento (y menores costos energéticos y ambientales) para obtener resultados más optimizados.

Los modelos LLM pueden entrenarse con datos lingüísticos y, mediante el cálculo de las probabilidades de coocurrencia de palabras, llegar a patrones e inferir reglas. Para llegar a estos patrones, se necesitan muchísimas palabras.

Por ejemplo, la palabra “cobra” puede ser un sustantivo, como en “La cobra mordió a Juan”, o un verbo, como en “Juan cobra por el servicio”. Para identificar si “cobra” es un verbo o un sustantivo, el modelo necesita una gran cantidad de contextos en los que esa palabra aparezca para llegar a una generalización. Esto es, en términos generales, un entrenamiento no supervisado.

Por otro lado, es posible entrenar modelos con datos categorizados: cada palabra tiene una etiqueta que explica algún aspecto de su funcionamiento, de modo que el modelo se sigue fácilmente. Cada elemento lingüístico recibe una etiqueta. En los ejemplos anteriores, una etiqueta morfológica sería

Una[DET] cobra [SUSTANTIVO] mordió a [VERBO] Juan[SUSTANTIVO]

Juan[SUSTANTIVO] cobra[VERBO] el[DET] servicio[SUSTANTIVO]

En el caso de la palabra “cobra”, la etiqueta del sustantivo o verbo se asigna mediante una regla morfosintáctica, si tiene un elemento [DET] a la izquierda, es [SUBST]; si no, es [verbo].

El etiquetado de datos lingüísticos sigue siendo un proceso que requiere recursos humanos especializados, lo que, en principio, resulta costoso en términos de inversión. Sin embargo, en Brasil, un gran volumen de datos estructurados se pierde en memorias USB, discos duros y repositorios no sistemáticos. Esta es la realidad de los productos derivados de la documentación lingüística y la investigación descriptiva.

La lingüística es una de las disciplinas más extendidas en Brasil, con más de 100 programas de posgrado y numerosos proyectos de investigación que dan lugar a recopilaciones de datos lingüísticos. Algunas de estas recopilaciones son más famosas, como el proyecto Norma Urbana Culta (NURC), establecido a finales de los años sesenta y setenta con muestras de habla de tres situaciones estilísticas diferentes en cinco capitales brasileñas, y que sienta las bases de las gramáticas portuguesas contemporáneas.

Los datos lingüísticos recopilados para el proyecto NURC han sustentado un vasto corpus de investigación científica sobre el portugués brasileño, contribuyendo no solo a la consolidación de la lingüística, sino también a la formación de recursos humanos especializados.

Otras colecciones de datos lingüísticos son más específicas, más pequeñas, pero no menos importantes: son aquellas que se crearon para una disertación o tesis y luego quedaron “olvidadas” en algún repositorio.

En un escenario donde los lingüistas tienen colecciones de datos lingüísticos anotados, con rigor científico, y los desarrolladores buscan cualquier tipo de dato lingüístico para entrenar sus modelos, una asociación sinérgica entre las áreas es la propuesta de la Plataforma Brasileña de Diversidad Lingüística, presentada a la convocatoria CNPq/SECTICS/CAPES/FAPs nº 46/2024 – Programa de los Institutos Nacionales de Ciencia y Tecnología – INCT (aprobado por mérito, pero no financiado) y compartida en SciELO Preprints en Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira.1

En Brasil, además del portugués y sus variantes, existen más de 250 lenguas (indígenas, inmigrantes y de señas) que se descuidan en la inclusión digital debido a la falta de datos estructurados. Incluso el portugués se descuida, ya que la formación de LLM con traducciones del inglés genera asimetrías y sesgos.

El consorcio de laboratorios y grupos de investigación que conformaron la Plataforma Brasileña de Diversidad Lingüística propuso trabajar en la preparación de datos lingüísticos para la formación de LLM, considerando la diversidad lingüística brasileña, mediante el desarrollo de un protocolo conjunto para la recopilación de datos lingüísticos en el campo, que se replicará longitudinalmente entre grupos y laboratorios.

Esta propuesta también busca estandarizar los procedimientos de transcripción, alineación y etiquetado de datos lingüísticos para crear conjuntos de datos que representen la diversidad lingüística brasileña.

La Plataforma Brasileña de Diversidad Lingüística responde directamente al objetivo del Plan Brasileño de Inteligencia Artificial2 (Plano Brasileiro de Inteligência Artificial, PBIA) de “desarrollar modelos lingüísticos a gran escala (LLM) para inteligencia artificial en portugués, basados en datos nacionales” (PBIA, 2025, pp. 13).

Recientemente publicada, la versión final del Plan Brasileño de Inteligencia Artificial2 propone mejorar la calidad de vida de los brasileños mediante innovaciones tecnológicas en áreas estratégicas como la salud, la agricultura, el medio ambiente y la educación. En este contexto, la investigación lingüística desempeña un papel estratégico. Los estudios sociolingüísticos y de procesamiento del lenguaje natural contribuyen al desarrollo de tecnologías más inclusivas capaces de abordar la diversidad lingüística de Brasil y evitar sesgos en los modelos de IA.

En concreto, la Acción 9 de PBIA propone una

IA nacional basada en datos (LLM en portugués), que fomente la conservación de conjuntos de datos nacionales y apoye el desarrollo de modelos fundamentales, en particular modelos lingüísticos a gran escala (LLM) especializados en portugués. (PBIA, 2025, pp. 70)2

La propuesta de una Plataforma Brasileña de Diversidad Lingüística responde directamente al reto de PBIA de crear y mejorar bases de datos nacionales para el entrenamiento de modelos de IA, centrándose en reducir la dependencia de datos extranjeros y en reconocer las especificidades lingüísticas y culturales de Brasil, tal como se propone.

La propuesta de curación de la Plataforma Brasileña de Diversidad Lingüística, que reúne datos estructurados y documentados de diferentes variedades del portugués brasileño y otras lenguas brasileñas, está directamente alineada con los objetivos de la iniciativa de ampliar la disponibilidad de conjuntos de datos nacionales y facilitar el desarrollo de un LLM que tenga en cuenta la diversidad lingüística real en Brasil.

En lugar de replicar los estándares de traducción al inglés, los datos estructurados curados por la Plataforma Brasileña de Diversidad Lingüística permiten el desarrollo de LLM que reflejen la realidad lingüística brasileña, esencial para el éxito de las aplicaciones tecnológicas en las áreas de salud, educación, justicia, inclusión digital y otros sectores estratégicos

Los datos estructurados sobre la documentación lingüística oral de diferentes variedades del portugués brasileño son esenciales para el éxito de la Acción de Impacto 1 de PBIA: el desarrollo de un sistema de IA para la transcripción automática de teleconsultas en el SUS.

Sin datos representativos de la diversidad lingüística presente en Brasil, los modelos de transcripción no han alcanzado la precisión necesaria para el reconocimiento de voz, que es sensible a las diferencias regionales, de edad y sociales. Sin esta diversidad en los datos de entrenamiento, existe un alto riesgo de que el sistema desarrollado sea inexacto o excluyente, especialmente en regiones donde el portugués hablado se desvía de la norma hegemónica.

Para el desarrollo de un “sistema de IA para automatizar la transcripción de teleconsultas”2 (PBIA, pp. 47), la documentación lingüística con anotación estructurada, que incluye la marcación de pausas, entonación, vacilaciones y solapamiento de habla, puede mejorar la precisión de los modelos en contextos reales de teleconsulta, que implican lenguaje espontáneo y, a menudo, condiciones acústicas desfavorables, con ruido y solapamiento de habla.

No debemos olvidar que Libras es un idioma reconocido y, por ley, el uso de la lengua de señas es obligatorio en los servicios públicos. Los sistemas de IA también deben considerar las lenguas de señas en Brasil (y Libras es solo una de ellas), lo que requiere datos de documentación lingüística estructurada también en lenguas de señas.

Además de los sistemas de IA para la transcripción y señalización del habla, la implementación de la Acción de Impacto 7 de PBIA, cuyo objetivo es crear una plataforma de IA para promover la salud de los adultos mayores, requiere datos estructurados sobre este perfil de edad, considerando no solo las diferencias regionales y socioeconómicas, sino también los efectos de las dificultades cognitivas derivadas del envejecimiento.

Los modelos lingüísticos entrenados en base de un conjunto de datos de este perfil lingüístico son esenciales para una comunicación más empática, clara y precisa entre los adultos mayores y los sistemas de salud automatizados.

Yendo aún más lejos, los datos lingüísticos estructurados pueden respaldar el desarrollo de herramientas de detección temprana de enfermedades neurodegenerativas al identificar patrones lingüísticos asociados con los síntomas tempranos del Alzheimer, el Parkinson y otras demencias, como el empobrecimiento léxico, las vacilaciones y los cambios en la fluidez y la coherencia del habla.

Como podemos observar, la diversidad de datos lingüísticos es esencial para que los LLM garanticen la justicia social y la equidad, con representación de lenguas de diferentes regiones y grupos sociales.

La Plataforma Brasileña de Diversidad Lingüística es una propuesta para reunir a expertos en datos estructurados de lenguas brasileñas, en diferentes situaciones y contextos de uso, y a desarrolladores de aplicaciones basadas en LLM.

Dada la demanda de PBIA, decidimos compartir la propuesta presentada a la convocatoria CNPq/SECTICS/CAPES/FAPs n.º 46/2024 – Programa de Institutos Nacionales de Ciencia y Tecnología – INCT, junto con las opiniones recibidas, con el fin de fomentar y contribuir al perfeccionamiento de otras propuestas, y demostrar que, como lingüistas, tenemos algo que aportar al Plan Brasileño de Inteligencia Artificial y contribuir a la mejora de la calidad de vida de los brasileños.

Notas

1. FREITAG, R.M.K. Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira. SciELO Preprints [online]. 2025. [viewed 18 July 2025]. https://doi.org/10.1590/SciELOPreprints.11957. Available from: https://preprints.scielo.org/index.php/scielo/preprint/view/11957/version/12598

2. Plano Brasileiro de Inteligência Artificial (PBIA) [online]. MCTI — Ministério da Ciência, Tecnologia e Inovação. 2025 [viewed 18 July 2025]. Available from: https://www.gov.br/mcti/pt-br/centrais-de-conteudo/publicacoes-mcti/plano-brasileiro-de-inteligencia-artificial/pbia_mcti_2025.pdf

Referencias

BENDER, E., et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: FAccT ’21: 2021 ACM Conference on Fairness, Accountability, and Transparency, Virtual Event, 2021 [viewed 18 July 2025]. https://doi.org/10.1145/3442188.3445922. Available from: https://dl.acm.org/doi/10.1145/3442188.3445922

CASTILHO, A.T. Gramática do Português Brasileiro: fundamentos, perspectivas. Cadernos de Linguística [online]. 2021, vol. 2, no. 1, e252–e252, ISSN: 2675-4916 [viewed 18 July 2025]. https://doi.org/10.25189/2675-4916.2021.v2.n1.id252. Available from: https://cadernos.abralin.org/index.php/cadernos/article/view/252

FERRO, M. et al. Towards a sustainable artificial intelligence: A case study of energy efficiency in decision tree algorithms. Concurrency and Computation: Practice and Experience [online]. 2021, vol. 33, e6815, ISSN: 1532-0634 [viewed 18 July 2025]. https://doi.org/10.1002/cpe.6815. Available from: https://onlinelibrary.wiley.com/doi/10.1002/cpe.6815

FREITAG, R. Variação linguística: Diversidade e cotidiano. São Paulo: Contexto, 2025.

FREITAG, R., et al. Função na língua, generalização e reprodutibilidade. Revista da ABRALIN [online]. 2021, vol. 20, no. 1, pp. 1–27, ISSN: 0102-7158 [viewed 18 July 2025]. https://doi.org/10.25189/rabralin.v20i1.1827. Available from: https://revista.abralin.org/index.php/abralin/article/view/1827

FREITAG, R.M.K. Plataforma da Diversidade Linguística Brasileira: Dados linguísticos para uma IA brasileira. SciELO Preprints [online]. 2025. [viewed 18 July 2025]. https://doi.org/10.1590/SciELOPreprints.11957. Available from: https://preprints.scielo.org/index.php/scielo/preprint/view/11957/version/12598

FREITAG, R.M.K. Preconceito linguístico para humanizar as máquinas. Cadernos de Linguística [online]. 2021, vol. 2, no. 4, e495, ISSN: 2675-4916 [viewed 18 July 2025]. https://doi.org/10.25189/2675-4916.2021.v2.n4.id495. Available from: https://cadernos.abralin.org/index.php/cadernos/article/view/495

GALDINO, J.C. and OLIVEIRA JR, M. Prosódia e síntese da fala: uma revisão integrativa da literatura. Revista da ABRALIN [online]. 2023, vol. 22, no. 1, pp. 1–15 [viewed 18 July 2025]. https://doi.org/10.25189/rabralin.v22i1.2130. Available from: https://revista.abralin.org/index.php/abralin/article/view/2130

HÜBNER, L.C., et al. Nomeação e aprendizagem verbal na doença de Alzheimer, no comprometimento cognitivo leve e no envelhecimento sadio com baixa escolaridade. Arquivos de Neuro-Psiquiatria [online]. 2018, vol. 76, pp. 93–99, ISSN: 0004-282X [viewed 18 July 2025]. https://doi.org/10.1590/0004-282X2017019. Available from: https://www.scielo.br/j/anp/a/F6Kf9M7WVBsnpcFMKQXYcnC/

OLIVEIRA JR., M. NURC Digital: Um protocolo para a digitalização, anotação, arquivamento e disseminação do material do Projeto da Norma Urbana Linguística Culta (NURC). Chimera: Revista de Corpus de Lenguas Romances y Estudios Lingüísticos [online]. 2016, vol. 3, no. 2, pp. 149–174, ISSN e: 2386 2629 [viewed 18 July 2025]. https://doi.org/10.15366/chimera2016.3.2.004. Available from: https://revistas.uam.es/chimera/article/view/6519

Plano Brasileiro de Inteligência Artificial (PBIA) [online]. MCTI — Ministério da Ciência, Tecnologia e Inovação. 2025 [viewed 18 July 2025]. Available from: https://www.gov.br/mcti/pt-br/centrais-de-conteudo/publicacoes-mcti/plano-brasileiro-de-inteligencia-artificial/pbia_mcti_2025.pdf

QUADROS, R.M., et al. Inventário Nacional de Libras. Fórum Linguístico [online]. 2020, vol. 17, no. 4, pp. 5457–5474, ISSN: 1984-8412 [viewed 18 July 2025]. https://doi.org/10.5007/1984-8412.2020.e77334. Available from: https://periodicos.ufsc.br/index.php/forum/article/view/77334

TORRENT, T. Plano brasileiro para turbinar IA ignora conceito básico da tecnologia. Tilt [online]. 2025 [viewed 18 July 2025]. Available from: https://www.uol.com.br/tilt/analises/ultimas-noticias/2025/06/23/plano-brasileiro-para-turbinar-ia-ignora-conceito-basico-da-tecnologia.htm

 

Sobre Raquel Freitag

Fotografía de Raquel Freitag

#image_title

Raquel Freitag es lingüista y profesora titular de la Universidad Federal de Sergipe, donde trabaja en los Programas de Posgrado en Lenguas y Psicología. Es doctora en Lingüística por la Universidad Federal de Santa Catarina e investiga la variación lingüística, el procesamiento lingüístico y la reproducibilidad en la ciencia. Es coordinadora del Grupo de Trabajo de Sociolingüística de la ANPOLL (2023-2025). Es autora de Variação linguística: Diversidade e cotidiano, publicado por Contexto (2025).

 

Traducido del original en inglés por Ernesto Spinak.

 

Como citar este post [ISO 690/2010]:

FREITAG, R. Lingüística para una inteligencia artificial (IA) brasileña [online]. SciELO en Perspectiva, 2025 [viewed ]. Available from: https://blog.scielo.org/es/2025/07/18/linguistica-para-una-inteligencia-artificial-ia-brasilena/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation