¿Puede la IA hacer arbitrajes confiables de artículos científicos?

Por Ernesto Spinak

Introducción

Es interesante observar las discusiones en torno a los chatbox y la inteligencia artificial (IA) generativa. Las opiniones varían entre el gran potencial que ofrece la IA y las preocupaciones sobre el daño que causaría a los sistemas de evaluación de la publicación científica.

Pero en verdad, ChatGPT y las tecnologías similares, simplemente reflejan los problemas que ya tiene el sistema de publicación académica actual. Al igual que hace una década, el acceso abierto fue un chivo expiatorio de la comunicación académica; ahora la IA generativa es el nuevo chivo expiatorio del sistema de publicación actual. Estas preocupaciones parten de una suposición subyacente: que el sistema actual está funcionando (lo cual no sería enteramente cierto)

Existen problemas bien conocidos en el área, por ejemplo las revistas depredadoras, la preocupante cantidad de fraude en la investigación médica, y que los investigadores que aceptan manipular citas tienen más probabilidades de que se publiquen sus artículos. Asimismo son alarmantes los detalles que revelan el intercambio de dinero por autoría, con precios que dependen de dónde se publicará el trabajo y el área de investigación. Las investigaciones sobre estos asuntos están llevando a una serie de retractaciones. Incluso la “naturaleza autocorrectiva” del sistema no funciona, con la revelación de un gran número de citas a artículos que han sido retractados, y más de una cuarta parte de estas citas ocurrieron después de la retractación.

Por cierto que la novedad de la IA en la publicación académica despierta preocupaciones, debido a la incapacidad actual de la IA para documentar el origen de sus fuentes de datos a través de citas. Porque la falta de identificadores de esas fuentes de datos, significa que no hay capacidad para replicar los hallazgos generados por los Large Language Models (LLMs). En este entorno, la generación de datos falsos es motivo de preocupación. Sin embargo, ChatGPT “no es el creador de estos problemas; en cambio, permite que este problema exista en una escala mucho mayor.”1

Esto introduce una nueva estrategia para afrontar el problema: usar la IA para el arbitraje científico con un sistema de confianza y que aporte comentarios útiles a los trabajos de investigación. Pues de eso se trata la nota que estamos publicando, de los resultados altamente positivos que ha arrojado un experimento recientemente publicado en arXiv.

El problema principal es que cada vez es más difícil obtener revisiones por pares de alta calidad, pues tiene un alto costo e insume millones de horas de dedicación. La mayoría de los principales canales de retroalimentación científica cuestan más de 100 millones de horas de investigación en USA y 2.500 millones de dólares estadounidenses en un solo año. Los investigadores más jóvenes o de entornos de escasos recursos tienen dificultades especialmente para obtener comentarios oportunos. Debido a estas dificultades, y con el avance de los modelos LLM como GPT-4, existe un interés creciente en utilizarlos para generar retroalimentación científica sobre manuscritos de investigación y, en particular, acelerar el proceso de arbitraje editorial manteniendo los estándares de seguridad.

La motivación principal de los proyectos que incorporan la IA es poder reemplazar a los humanos en tareas tediosas, minimizar los errores, y facilitar una toma de decisiones más rápida para la publicación y difusión.

La IA se puede aplicar para tareas que tienen diferentes niveles de complejidad. Por ejemplo, la traducción automática, con las dificultades de interpretación semántica y gramáticas que difieren en los diferentes idiomas, es un problema que hoy día se encuentra razonablemente resuelto como se ha publicado en este sitio.

Un nivel de mayor complejidad es la generación de resúmenes que involucra varios métodos y tecnologías, incluido OCR para reconocimiento de texto, modelos de lenguaje y técnicas para extracción de información, y uso de expresiones regulares para comparar patrones de datos específicos; técnica esta conocida como summarization. El procedimiento pasa por tres fases principales:

  • Extracción de datos,
  • Captura de información relevante y
  • Generación del resumen con niveles de complejidad ajustado a diferentes audiencias.

Estas aplicaciones de summarization (o canalización) están siendo usadas ampliamente y hay revisiones bibliográficas amplias y sistemáticas en este campo de investigación.

El proceso de summarization, según explica Dang Kiel,2 primero realiza un resumen de texto extractivo para reconocer los puntos de los comentarios planteados en LLM y luego realiza una comparación semántica del texto para que coincida con los puntos de información publicada.

Hasta aquí estamos en territorio conocido. Sin embargo, el arbitraje de publicaciones originales (la terra incognita), requiere todavía un nivel mayor de complejidad y conceptualización, pues debe realizar inferencias que permitan hacer un juicio de valor respecto no solo a la estructura del texto, su redacción y contenido, sino también a la novedad, relevancia y aspectos metodológicos de la experimentación.

Esta es la nueva frontera de la IA, incorporarla a la evaluación y arbitraje de publicaciones científicas, porque el espectro de disciplinas y posibilidades, para los que no siempre se dispone de entrenamiento suficiente, requiere la capacidad de abstracción de los temas y generar aprendizaje automático sobre nuevos conocimientos (Zero-shot learning3).

De eso se trata esta nota, porque un equipo de investigación de las universidades de Stanford, Northwestern y Cornell4 desarrollaron un canal de generación de retroalimentación científica basado en GPT-4 que toma el PDF sin procesar de un artículo y produce retroalimentación estructurada. El sistema está diseñado para generar comentarios constructivos en varios aspectos clave, reflejando la estructura de revisión de las principales revistas y conferencias interdisciplinarias, que incluyen:

  • Importancia y novedad,
  • Posibles razones de aceptación,
  • Posibles razones de rechazo, y
  • Sugerencias y comentarios del artículo.

Con resultados que servirían para mejorar evidencia sobre si los LLM pueden usarse confiablemente y cómo facilitar la retroalimentación científica y aumentar las prácticas académicas actuales.

El experimento se hizo sobre un conjunto de análisis retrospectivos y trabajos nuevos, de artículos y presentaciones de conferencias. Se tomaron artículos de 15 revistas de la familia Nature, y artículos aceptados de Nature Communications, que totalizaron 3.096 documentos aceptados junto con las más de 8.700 revisiones disponibles. Los datos se obtuvieron directamente del Nature website. Asimismo se tomaron 4.966 presentaciones y posters de The International Conference on Learning Representations (ICLR). Los archivos PDF y las revisiones correspondientes se recuperaron de https://docs.openreview.net/.

Generación de comentarios científicos mediante LLM

El modelo desarrolló un canal automatizado que utiliza GPT-4 de OpenAI para generar comentarios sobre el texto completo de artículos científicos cuyos resultados fueron:

  • La retroalimentación de LLM se superpone significativamente con la retroalimentación generada por humanos.
  • LLM podría generar retroalimentación no genérica.
  • ¿Es posible que LLM simplemente genere comentarios genéricos aplicables a varios artículos?
  • LLM es consistente con los humanos en los comentarios importantes.

Los comentarios de LLM enfatizan ciertos aspectos más que los humanos y que comprenden a los siguientes once aspectos en orden de importancia descendente: claridad y presentación; comparación con estudios anteriores; solidez teórica; novedad; eficiencia del algoritmo; reproducibilidad; agregar experimentos en más conjuntos de datos; si faltan citas; agregar experimentos de ablación; aspectos éticos; implicaciones de la investigación.

  • LLM comenta sobre las implicaciones de la investigación con 7,27 veces más frecuencia que los humanos.
  • Por el contrario, LLM es 10,69 veces menos propensa a comentar sobre novedades que los humanos. Si bien tanto el LLM como los humanos a menudo sugieren experimentos, sus enfoques difieren: los humanos tienen 6,71 veces más probabilidades que los LLM de solicitar más experimentos de confirmación, mientras que los LLM tienen 2,19 veces más probabilidades que los humanos de solicitar experimentos en más conjuntos de datos.
  • Estos hallazgos sugieren que el énfasis puesto en ciertos aspectos de los comentarios varía entre los LLM y los revisores humanos. Esta variación resalta las ventajas potenciales que podría proporcionar una colaboración entre humanos y IA. En lugar de que LLM automatice completamente el proceso de retroalimentación científica, los humanos pueden plantear puntos importantes que LLM puede pasar por alto (destacado nuestro).

En paralelo se realizó un estudio de encuesta entre 308 investigadores de 110 instituciones de EE.UU. que optaron por recibir comentarios científicos generados por LLM sobre sus propios artículos y se les pidió que evaluaran su utilidad y desempeño.

  • Un participante escribió: “Después de escribir un artículo o una reseña, GPT podría ayudarme a obtener otra perspectiva para volver a revisar el artículo”.
  • LLM podría generar comentarios novedosos que los humanos no mencionan.
  • Más allá de generar retroalimentación que se alinee con los humanos, los resultados también sugieren que LLM podría potencialmente generar comentarios útiles “que no han sido mencionados por humanos”.

La retroalimentación de LLM ofrece perspectivas que los humanos han pasado por alto o subestimado. Varios participantes mencionaron que:

  • “Consta de más puntos, que cubren aspectos en los que los humanos pueden olvidarse de pensar.”
  • “En realidad, destacó algunas limitaciones que los revisores humanos no señalaron, pero como autores estábamos conscientes de ello y lo esperábamos. Pero este GPT descubrió algunos de ellos, lo que es interesante.”
  • “La revisión generada por GPT me sugirió presentar argumentos más concretos a favor de la interpretabilidad.”
  • “También pidió abordar las cuestiones de privacidad de datos. Ambos son importantes y los revisores humanos pasaron por alto este punto.”

Limitaciones de la retroalimentación de LLM

Los participantes del estudio también discutieron las limitaciones del sistema actual. La limitación más importante es su capacidad para generar comentarios específicos y procesables,

  • Las posibles recomendaciones pueden ser demasiado vagas y no son específicas de un dominio.
  • GPT no puede incursionar en áreas técnicas específicas para mejorar, lo que hace potencialmente difícil mejorar el documento.
  • Los revisores podrían comentar dada su probable experiencia considerable en campos estrechamente relacionados con el foco del artículo.
  • Una dirección futura para mejorar el sistema de retroalimentación científica basado en LLM es empujar el sistema hacia generar comentarios más concretos y procesables, p.e. señalando trabajos específicos faltantes, experimentos para agregar.
  • Las revisiones (LLM) se centraban menos en el contenido y más en el régimen de pruebas, ya que además de estar menos centrado en los detalles metodológicos, (esto está bien), aún brinda consejos relevantes y prácticos sobre áreas de mejora en términos de diseño del documento y presentación de resultados. Las reseñas generadas por GPT son especialmente útiles aquí cuando los autores con menos experiencia pueden omitir detalles sobre la implementación y la construcción u olvidarse de explicar detalladamente el régimen de pruebas proporcionando indicaciones sobre las áreas para pulir el documento, lo que podría disminuir el número de ciclos de revisión antes de la publicación.

Nuestra reflexión

Sería muy interesante que SciELO comenzara a implementar y a evaluar modelos de summarization y evaluación por pares para los documentos enviados para publicar en su plataforma de preprints. Existen disponibles modelos de LLM y natural language processing (PNL) así como metodologías de evaluación de resultados, (además de los mencionados, hay otros como BertScore y ROUGE), con buena documentación y trabajos teóricos que los respaldan.5

A pesar del potencial de los LLM para proporcionar retroalimentación científica oportuna y útil, es importante tener en cuenta que la evaluación humana de expertos seguirá siendo la piedra angular de un control científico riguroso, al menos por un largo tiempo.

Posts de la serie sobre Inteligencia Artificial (IA)

Notas

1. KINGSLEY, D. Generative AI – the Latest Scapegoat for Research Assessment [online]. LSE Impact blog, 2023. [viewed 6 December 2023]. Available from: https://blogs.lse.ac.uk/impactofsocialsciences/2023/10/13/generative-ai-the-latest-scapegoat-for-research-assessment/

2. KIEL, D. Automated Text Data Extraction [online]. Medium. 2023 [viewed 6 December 2023]. Available from: https://medium.com/@kirudang/automated-text-data-extraction-and-form-filling-system-8c97250da6aa

3. Zero-shot learning (ZSL) es un enfoque de aprendizaje automático que busca abordar el desafío de reconocer y clasificar objetos o conceptos para los cuales no se dispone de datos de entrenamiento directo. El objetivo es aprender a reconocer nuevas clases o categorías sin ejemplos previos de entrenamiento.

4. WEIXIN, L., et al. Can large language models provide useful feedback on research papers? A large-scale empirical analysis [online]. arXiv. 2023 [viewed 6 December 2023] https://doi.org/10.48550/arXiv.2310.01783. Available from: https://arxiv.org/abs/2310.01783

5. El resumen de texto consiste en condensar un texto extenso en una versión más corta y concisa. Este proceso resalta los puntos clave del texto y facilita que el lector lo comprenda rápidamente. BertScore es un método utilizado para medir la calidad del resumen de texto. Este método mide qué tan similar es el resumen del texto al texto original. La combinación de valores de Precisión y Recuperación hace que la medición de similitud de texto sea más precisa y equilibrada. Esto ofrece una ventaja significativa para muchas tareas de procesamiento del lenguaje natural (PLN). Otra métrica es ROUGE (Recall-Oriented Understudy for Gisting Evaluation) es un conjunto de métricas y un paquete de software que se utiliza para evaluar el software de resumen automático y traducción automática en el procesamiento del lenguaje natural. Las métricas comparan un resumen o traducción producido automáticamente con una referencia o un conjunto de resumen o traducciones de referencias (producidas por humanos).

Referencias

ALTMANI, N.I. and MENAI, M.E.B. Automatic summarization of scientific articles: A survey. Journal of King Saud University – Computer and Information Sciences [online]. 2022, vol. 34, no. 4, pp. 1029-1046 [viewed 6 December 2023]. https://doi.org/10.1016/j.jksuci.2020.04.020. Available from: https://www.sciencedirect.com/science/article/pii/S1319157820303554?via%3Dihub

KIEL, D. Automated Text Data Extraction [online]. Medium. 2023 [viewed 6 December 2023]. Available from: https://medium.com/@kirudang/automated-text-data-extraction-and-form-filling-system-8c97250da6aa

KINGSLEY, D. Generative AI – the Latest Scapegoat for Research Assessment [online]. LSE Impact blog, 2023. [viewed 6 December 2023]. Available from: https://blogs.lse.ac.uk/impactofsocialsciences/2023/10/13/generative-ai-the-latest-scapegoat-for-research-assessment/

KIZILIRMAK, E. and ALPARSLAN, M. Text Summarization: How To Calculate Rouge Score [online]. Medium. 2023 [viewed 6 December 2023]. Available from: https://medium.com/@eren9677/text-summarization-387836c9e178

SPINAK, E. GPT, traducción automática y qué tan buenos son: una evaluación integral [online]. SciELO en Perspectiva, 2023 [viewed 6 December 2023]. Available from: https://blog.scielo.org/es/2023/08/14/gpt-traduccion-automatica-y-que-tan-buenos-son/

WEIXIN, L., et al. Can large language models provide useful feedback on research papers? A large-scale empirical analysis [online]. arXiv. 2023 [viewed 6 December 2023] https://doi.org/10.48550/arXiv.2310.01783. Available from: https://arxiv.org/abs/2310.01783

Enlaces externos

arXiv: https://arxiv.org/

OpenReview Documentation: https://docs.openreview.net/overview/openreview-documentation

 

Sobre Ernesto Spinak

Colaborador de SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.

author avatar
Ernesto Spinak
Colaborador do SciELO, engenheiro de Sistemas e licenciado en Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información" pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. ¿Puede la IA hacer arbitrajes confiables de artículos científicos? [online]. SciELO en Perspectiva, 2023 [viewed ]. Available from: https://blog.scielo.org/es/2023/12/06/puede-la-ia-hacer-arbitrajes-confiables-de-articulos-cientificos/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation