¿Es que la Inteligencia Artificial tiene alucinaciones?

Por Ernesto Spinak

Finalización de redes neuronales para "inteligencia artificial", como en DALL-E mini.

La alucinación (hallucination) en el contexto de Procesamiento del Lenguaje Natural, y en general en aplicaciones de IA es un fenómeno en el que un modelo de lenguaje LLM (Large Language Model), percibe patrones que son inexistentes o imperceptibles para los observadores humanos, creando resultados inesperados o incorrectos generados por los modelos de lenguaje. A veces también los algoritmos de IA producen resultados que no se basan en datos de entrenamiento, el transformer¹ los decodifica incorrectamente pues no siguen ningún patrón identificable.

Las alucinaciones de la IA pueden tener consecuencias importantes para las aplicaciones del mundo real. Por ejemplo, un modelo de IA usado para el cuidado de la salud podría identificar incorrectamente una lesión cutánea benigna como maligna, lo que daría lugar a intervenciones médicas innecesarias. El principal problema es que las aplicaciones de IA pueden generar texto convincente pero completamente incorrecto o sin sentido. Las alucinaciones pueden variar desde errores fácticos inofensivos hasta fabricaciones potencialmente peligrosas como noticias falsas.

Los modelos de lenguaje generalmente no dicen “no sé” cuando no están seguros. Entonces, cuando no pueden resolver la consulta, dan la respuesta que creen que es más probable. Los LLM que vemos hoy operan con tokens (ficha simbólica o referencia a un identificador). Cada token que genera el modelo está influenciado por los tokens que le preceden. El modelo intenta predecir el siguiente token más probable en función de la secuencia de tokens que ya ha procesado.

Este es el quid de los LLM actuales, pues significa que se basa únicamente en patrones que ha aprendido durante su fase de entrenamiento.

Existen varios motivos por los que la IA produce alucinaciones, siendo los más destacados y conocidos los que se enumeran en la lista que sigue:

Complejidad del lenguaje humano: El lenguaje humano es complejo y a menudo ambiguo. Los modelos de lenguaje pueden tener dificultades para comprender completamente el contexto o las sutilezas del lenguaje, lo que puede llevar a generar textos que pueden parecer incoherentes o incorrectas, que es frecuente con los traductores automáticos.
Problemas con la calidad de los datos de entrada: Si los datos de entrada contienen errores, ruido o información contradictoria, el modelo puede generar resultados incorrectos. Los LLM dependen únicamente de sus datos de capacitación y carecen de acceso a conocimiento externo del mundo real.
Diseño del modelo: Algunos modelos de lenguaje pueden tener limitaciones en términos de la arquitectura o los algoritmos utilizados, lo que podría contribuir a resultados inesperados.
Sesgo de datos de entrenamiento: los modelos de LLM se entrenan con grandes cantidades de texto de Internet, que pueden contener información errónea, estereotipos y sesgos. Estos sesgos pueden llevar al modelo a generar contenido que se alinee con esos sesgos o prejuicios, pero que sea objetivamente incorrectos.
Errores de sobreajuste: Si un modelo se ajusta demasiado a los datos de entrenamiento específicos, puede tener dificultades para generalizar a nuevas situaciones o contextos, lo que podría manifestarse como “alucinaciones” en las predicciones. Modelos como GPT-4 se optimizan para producir texto coherente y relevante al contexto, pero esta optimización les lleva en ocasiones a inventar información que se ajusta al contexto, aunque no sea cierta.
Ausencia de Verificación Externa: Los modelos carecen de la capacidad de verificar información de fuentes externas. Dependen de los datos de capacitación y no tienen acceso a bases de datos de verificación de hechos en tiempo real.
Inferencia contextual: los modelos de lenguaje infieren el contexto del texto anterior, pero pueden malinterpretar o extrapolar incorrectamente, lo que provoca alucinaciones.
Repetir como loro es cuando el LLM simplemente repite información o sesgos presentes en sus datos de capacitación sin un análisis crítico.
Auto contradicción: La auto contradicción ocurre cuando el LLM genera respuestas que contradicen sus propias declaraciones.
Divergencia fuente-referencia. Una causa importante de alucinaciones surge de la divergencia fuente-referencia en los datos de entrenamiento. Esta divergencia puede ocurrir como resultado de métodos heurísticos de recopilación de datos o debido a la naturaleza inherente de ciertas tareas de las redes neurales. Cuando los LLM se capacitan con datos con divergencia entre fuente y referencia, pueden generar texto que carece de base en la realidad y se desvía de la fuente proporcionada.
Explotación a través de indicaciones de jailbreak.² Otro factor que contribuye a las alucinaciones radica en las elecciones de entrenamiento y modelado realizadas en los modelos neuronales. Los LLM pueden ser vulnerables a la explotación mediante el uso de indicaciones de “jailbreak” insertadas en el prompt. Al manipular el comportamiento o el resultado del modelo más allá de sus capacidades previstas, los individuos pueden explotar vulnerabilidades en la programación o en la configuración. Las indicaciones de jailbreak pueden generar resultados inesperados y no deseados, lo que permite a los LLM generar texto que no se anticipó o predijo originalmente.

La prevalencia de alucinaciones en los LLM, está estimada en una tasa del 15% al 20% para ChatGPT, y puede tener profundas implicaciones para la reputación de las empresas y la confiabilidad de los sistemas de inteligencia artificial.

A diferencia de las bases de datos o los motores de búsqueda, los LLM carecen de la capacidad de citar sus fuentes con precisión, ya que generan texto mediante extrapolación a partir del mensaje proporcionado. Esta extrapolación puede dar como resultado resultados alucinados que no se alinean con los datos del entrenamiento. Por ejemplo, un estudio sobre alucinaciones en ChatGPT reveló que ChatGPT 3.5 exhibió una tasa de éxito general de aproximadamente el 61%, respondiendo correctamente a 33 indicaciones y proporcionando respuestas incorrectas a 21 indicaciones, lo que resultó en un porcentaje de alucinaciones del 39%. De manera similar, ChatGPT 4 demostró una tasa de éxito general de aproximadamente el 72%, respondiendo con precisión 39 indicaciones y equivocando con 15 indicaciones, lo que corresponde a un porcentaje de alucinaciones del 28%.

Mejorar los datos de capacitación es un proceso continuo que requiere monitoreo, retroalimentación y refinamiento continuos. Es un paso fundamental para mejorar la precisión y confiabilidad del contenido generado por LLM y al mismo tiempo reducir las alucinaciones.

Es importante señalar que la erradicación completa de las alucinaciones en los modelos de lenguaje es un desafío y aún puede haber casos en los que los modelos generen contenido incorrecto o sesgado. La investigación y el desarrollo continuos son esenciales para abordar estos problemas y mejorar el rendimiento de grandes modelos de lenguaje.

Para abordar estos problemas, los investigadores y desarrolladores trabajan en mejorar la calidad de los datos de entrenamiento, ajustar los modelos para evitar sesgos, implementar técnicas de regularización para evitar el sobreajuste y realizar ajustes en la arquitectura del modelo.

Mis reflexiones

Estos son problemas relativamente nuevos y es bueno ver que se están haciendo esfuerzos para resolverlo.

Las alucinaciones de LLM plantean desafíos importantes a la hora de generar respuestas precisas y confiables, derivados de factores como la divergencia de fuentes y referencias, datos de entrenamiento sesgados y preocupaciones sobre la privacidad, lo que conduce a una posible difusión de información errónea, contenido discriminatorio y violaciones de la privacidad. Para mitigar los riesgos potenciales, las organizaciones pueden implementar estrategias como preprocesamiento y control de entradas, configuración del modelo y ajustes de comportamiento, mecanismos de aprendizaje y mejora, y mejora del contexto y el conocimiento.

La mejor manera de mitigar el impacto de las alucinaciones de la IA es detenerlas antes de que sucedan, o sea usar la prevención. Utilice datos de entrenamiento de alta calidad. Defina límites para los modelos de IA utilizando herramientas de filtrado y/o umbrales probabilísticos claros.

Finalmente, confíe en la supervisión humana.

Si la IA alucina, habrá un humano disponible para filtrarla y corregirla.

Si la IA no alucinara, sería demasiado humana.

Posts de la serie sobre Inteligencia Artificial (IA)

Notas

1. Los transformers son un tipo de arquitectura de red neuronal que ha ido ganando popularidad. OpenAI utilizó recientemente Transformers en sus modelos de lenguaje GPT

2. En términos sencillos, el jailbreak es cuando se eliminan restricciones intencionales de software en un dispositivo explotando sus fallas para obtener acceso a su firmware o sistema operativo. Las indicaciones de jailbreak, como sugiere el término, son esencialmente intentos de eludir ciertos límites o restricciones programadas en la IA. Son solicitudes inteligentemente diseñadas que tienen como objetivo liberar a la IA de su conjunto de reglas predefinidas.

Referencias

ADACHI, F.P. Understanding and Mitigating LLM Hallucinations [online]. Towards Data Science via Medium. 2023 [viewed 20 December 2023]. Available from: https://towardsdatascience.com/understanding-and-mitigating-llm-hallucinations-be88d31c4200

BILAN, M. Hallucinations in LLMs: What You Need to Know Before Integration [online]. Master of Code. 2023 [viewed 20 December 2023]. Available from: https://masterofcode.com/blog/hallucinations-in-llms-what-you-need-to-know-before-integration

CHUKAMPHAENG, N. A Brief Overview of Hallucination in LLM [online]. Medium. 2023 [viewed 20 December 2023]. Available from: https://medium.com/scb-datax/a-brief-overview-of-hallucination-in-llm-848716229d6a

GHOSH, B. Tackling Hallucinations in LLMs [online]. Medium. 2023 [viewed 20 December 2023]. Available from: https://medium.com/@bijit211987/tackling-hallucinations-in-llms-f2d7cbf35e72

HEYER, S. Generative AI – Understand and Mitigate Hallucinations in LLMs [online]. Google Cloud – Community via Medium. 2023 [viewed 20 December 2023]. Available from: https://medium.com/google-cloud/generative-ai-understand-and-mitigate-hallucinations-in-llms-8af7de2f17e2

MISHRA, A.N. Hallucination in Large Language Models [online]. Medium. 2023 [viewed 20 December 2023]. Available from: https://medium.com/@asheshnathmishra/hallucination-in-large-language-models-2023-f7b4e77855ae

SERGEI, S. Fixing Hallucinations in LLMs [online]. Better Programming via Medium. 2023 [viewed 20 December 2023]. Available from: https://betterprogramming.pub/fixing-hallucinations-in-llms-9ff0fd438e33

SPINAK, E. GPT, traducción automática y qué tan buenos son: una evaluación integral [online]. SciELO en Perspectiva, 2023 [viewed 20 December 2023]. Available from: https://blog.scielo.org/es/2023/08/14/gpt-traduccion-automatica-y-que-tan-buenos-son/

SPINAK, E. Investigación y comunicación científica, la IA y la legislación que se avecina [online]. SciELO en Perspectiva, 2023 [viewed 20 December 2023]. Available from: https://blog.scielo.org/es/2023/11/24/investigacion-y-comunicacion-cientifica-la-ia-y-la-legislacion-que-se-avecina/

What are AI hallucinations [online]. IBM. 2023 [viewed 20 December 2023]. Available from: https://www.ibm.com/topics/ai-hallucinations

Sobre Ernesto Spinak

Colaborador de SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.

Posts relacionados:

Como citar este post [ISO 690/2010]:

SPINAK, E. ¿Es que la Inteligencia Artificial tiene alucinaciones? [online]. SciELO en Perspectiva, 2023 [viewed ]. Available from: https://blog.scielo.org/es/2023/12/20/es-que-la-inteligencia-artificial-tiene-alucinaciones/

2 Thoughts on “¿Es que la Inteligencia Artificial tiene alucinaciones?”

RRG on January 12, 2024 at 17:17 said:

La institución de educación superior en que trabajo recibió una oferta desde una importante compañía de información, que consistía en la autorización para una prueba gratuita de una plataforma de aprendizaje en una determinada disciplina profesional.

Revisé numerosos módulos de la plataforma: vídeos, flashcards, imágenes. Me parecieron de interés. Podrían ser de ayuda para los estudiantes de pregrado de nuestra institución ya que les daría la oportunidad de repasar ciertas materias de manera dinámica una vez que ellos se hayan familiarizado con los conceptos y fundamentos de estas. Sin embargo, no es una plataforma realmente interactiva; contiene no pocos errores conceptuales y otros tantos por falta de actualización y varios sesgos evidentes motivados por “bias” de origen, que apuntan el ámbito demográfico/racial. Su modalidad de presentar los temas de manera “punteada”, como una lista, aunque sin muchos fundamentos, es útil para ejercitarse y autoevaluarse, pero no para estudiar y profundizar.

Consulté a dos “chatbox” de LLM sobre las ventajas y desventajas de esta plataforma y su eventual utilidad como apoyo adicional para el aprendizaje de estudiantes de pregrado. Ambos chatbox me respondieron en términos muy similares, repitiendo como “loros” el lenguaje estereotipado, de marketing, que usa la compañía que nos ofreció el producto. Ninguna se refirió a los puntos que identifiqué como posiblemente negativos. Ambas respuestas contenían idénticos adjetivos calificativos propios del lenguaje publicitario en el rubro de nuestra profesión.

Después de esto, obviamente, ha crecido mi inquietud respecto al alcance de la difusión de información errónea o manipulada, y de nuestra credulidad.

Reply↓
Pingback: ¿Es que la Inteligencia Artificial tiene alucinaciones? – BABT