IA: Cómo detectar textos producidos por chatbox y sus plagios

Por Ernesto Spinak

Introducción

La pregunta de qué significa ser un autor es solo uno de los problemas más apremiantes en el mercado de bots de Inteligencia Artificial (IA). La generación más nueva de éstos es ChatGPT de OpenAI, cuya última versión gratuita se lanzó en noviembre de 2022 basado en la arquitectura de Large Language Model (LLM). Sus fuentes de información1 son vastos bancos de texto con ejemplos que les permiten determinar, en un sentido probabilístico, qué palabras, estructuras de oraciones, temas y evidencia son más frecuentes.

Las respuestas, sin embargo, pueden generar dudas acerca del plagio, certeza y originalidad de las explicaciones proporcionadas.

Para analizar estos temas interrogamos a ChatGPT-3 con cuatro preguntas y contrastamos las respuestas con información reciente de Internet.

P. 1 – ¿Cómo se puede identificar si un texto fue escrito por humanos o por un chatbox?

ChatGPT-3

Señales que podrían indicar la intervención de IA:

  • Patrones de respuesta: Los chatbots a menudo tienen patrones de respuesta predecibles. Pueden ser demasiado formales o utilizar frases y estructuras gramaticales similares en todas sus respuestas. Esto puede indicar que el texto fue generado automáticamente.
  • Coherencia y contexto: Los humanos suelen responder de manera coherente al contexto y pueden entender el tono y el propósito de la conversación. Los chatbots pueden tener dificultades para mantener la coherencia o pueden ofrecer respuestas irrelevantes al contexto.
  • Errores gramaticales o tipográficos: Los humanos a veces cometen errores gramaticales o tipográficos, mientras que los chatbots suelen producir texto bien estructurado y sin errores.
  • Respuestas demasiado rápidas: Los chatbots a menudo responden de manera instantánea, sin tiempo de espera perceptible. Si recibe respuestas extremadamente rápidas en un chat, es posible que esté interactuando con un chatbot.
  • ¿Es una invasión de la privacidad? La principal preocupación sobre la privacidad en torno a la IA es la posibilidad de violaciones de datos y acceso no autorizado a la información personal. Con tantos datos que se recopilan y procesan, existe el riesgo de que caigan en las manos equivocadas, ya sea por piratería u otras violaciones de seguridad.
  • ¿La IA tiene sesgo? El sesgo de IA ocurre porque los seres humanos eligen los datos que usan los algoritmos y también deciden cómo se aplicarán los resultados de esos algoritmos. Sin pruebas exhaustivas y equipos diversos, es fácil que los sesgos inconscientes ingresen a los modelos de aprendizaje automático.
  • Sin dirección y desapegado. El chatbox evitará expresar una opinión fuerte, tomar una posición sobre un tema, reflexionar sobre sí mismo o imaginar un futuro. Con el tipo correcto de indicaciones, se puede persuadir a hacer algunas de esas cosas, pero solo hasta cierto punto, ya que seguirá sonando extrañamente cauteloso, distante y vacío de dirección/contenido.
  • Afectado por errores. Los modelos generativos de IA funcionan prediciendo la siguiente palabra en función del contexto anterior. No saben las cosas. Debido a eso, tienden a generar declaraciones que parecen plausibles pero que en realidad son incorrectas. Este fenómeno se conoce como “alucinación” de IA. Si un envío contiene muchos de estos errores, o uno o dos muy dramáticos, es probable que sea generado por IA.

Es importante tener en cuenta que los avances en inteligencia artificial pueden hacer que los chatbots sean cada vez más difíciles de distinguir de los humanos. Algunos chatbots están diseñados específicamente para imitar el estilo de escritura humano y superar las pruebas de detección. En última instancia, la evaluación de si un texto fue escrito por un humano o por un chatbot puede ser compleja y no siempre se puede determinar con certeza absoluta.

Qué dice Internet

A una IA no le importa si la información que devuelve es verdadera, solo si es plausible. Podrían estar enviando una respuesta sorprendentemente perspicaz y precisa, o podrían ser tonterías envueltas en el lenguaje de la investigación académica. El modelo genera contenido que parece real pero que podría no ser correcto.

Los modelos LLM como ChatGPT pueden producir texto cada vez más realista, con información desconocida sobre la precisión e integridad en la redacción científica.

Hay varias formas en que los investigadores han tratado de detectar texto generado por IA. Un método común es usar software para analizar diferentes características del texto, por ejemplo, qué tan fluido se lee, qué tan seguido aparecen ciertas palabras o si hay patrones en la puntuación o en la longitud de las oraciones. Pero en un estudio de Gao,2 se encontró que tanto los humanos como los programas detectores de respuestas de IA pudieron identificar, en la mayoría de los casos, los resúmenes generados por ChatGPT, pero ninguno fue un discriminador perfecto.

Debido a que los modelos LLM funcionan prediciendo la siguiente palabra en una oración, es más probable que usen palabras comunes como “él”, “lo” o “es” en lugar de palabras raras y extrañas. El texto escrito por humanos suele estar plagado de errores tipográficos y es increíblemente variable, incorporando diferentes estilos y jerga, mientras que los modelos de lenguaje muy rara vez cometen errores tipográficos.

Si bien hay un trabajo en desarrollo para incorporar marcas de agua en los textos de la salida, hasta que esto esté estandarizado y sea sólido contra la depuración, se sugiere enviar los resúmenes de revistas y conferencias a través de detectores de salida de IA como parte del proceso editorial de investigación y también para protegerlos de los sesgos de organizaciones maliciosas como los papermills.

P.2 – ¿Se disponen de tecnologías para detectar textos generados por inteligencia artificial?

ChatGPT-3

Sí, existen tecnologías de software diseñadas específicamente para detectar textos generados por inteligencia artificial (IA). Estas tecnologías se conocen como sistemas de detección de generación de lenguaje (Language Generation Detection Systems).

Algunas de las técnicas y enfoques utilizados en estos sistemas incluyen:

  • Análisis de patrones: Los sistemas de detección pueden examinar características específicas del texto, como patrones de palabras, estructuras gramaticales o errores comunes generados por los modelos de IA. También pueden evaluar la coherencia y cohesión del texto para determinar si parece ser generado por una IA.
  • Aprendizaje automático: Se utilizan algoritmos de aprendizaje automático para entrenar modelos que puedan distinguir entre textos generados por IA y textos escritos por humanos.
  • Comparación con datos de entrenamiento: Los sistemas de detección pueden comparar el texto sospechoso con los datos utilizados para entrenar el modelo de generación de lenguaje.

Es importante tener en cuenta que los avances en la generación de lenguaje por IA también impulsan el desarrollo de técnicas más sofisticadas para detectar estos textos generados. Sin embargo, tenga en cuenta que la detección precisa de textos generados por IA puede ser un desafío en constante evolución, ya que los modelos de IA continúan mejorando y adaptándose.

  • Las marcas de agua o watermarks: Son una técnica comúnmente utilizada para identificar y proteger la propiedad intelectual de imágenes, vídeos u otros contenidos digitales. Una marca de agua generalmente consiste en información visual o de texto superpuesta en el contenido, que puede indicar el origen, la autoría o los derechos de propiedad del contenido. Las marcas de agua integradas en el texto no son una técnica comúnmente utilizada para identificar los textos producidos por chatbots o modelos de generación de lenguaje en tiempo real (conocida como Red-Flagging), pero esto podría cambiar.
  • Indicadores de chatbot: Los sistemas de chatbots suelen presentarse como tales al inicio de la conversación o en algún punto durante ella. Esto puede ser a través de un mensaje de bienvenida o una declaración explícita de que el usuario está interactuando con un chatbot.
  • Respuestas predefinidas: Los chatbots a menudo tienen una base de conocimiento o un conjunto de respuestas predefinidas que pueden ofrecer en función de la entrada del usuario. Si se identifica que una respuesta es una de las opciones predefinidas, eso podría ser un indicio de que proviene de un chatbot.

Qué dice Internet

La información generada por IA puede ser incorrecta, peligrosa, obsoleta o engañosa. El contenido de IA puede engañar a los editores o a las empresas que creen que están pagando por contenido creado por humanos. El contenido de IA puede aprovechar el trabajo creativo de los humanos y reutilizarlo sin atribución de autoría a las verdaderas fuentes.

Algunas herramientas disponibles para detectar IA son

  • GPTZero se ha mejorado significativamente. Ahora es muy preciso, fácil de usar e incluye una extensión para Chrome.
  • AI Text Classifier de OpenAI es muy preciso, pero no proporciona información adicional sobre el contenido.
  • AI Content Detector de Content at Scale es fácil de usar y produce informes bastante precisos sobre predictibilidad, probabilidad y patrones.
  • OpenAI Detector es una herramienta gratuita y de código abierto que puede utilizarse para detectar texto generado por el modelo de lenguaje GPT de OpenAI.3

Del mismo modo que aparecieron detectores de ChatGPT para identificar la escritura de IA generativa, ya se están desarrollando herramientas para sortear los detectores y pasar inadvertidos. Herramientas como Undetectable o Quillbot pueden reescribir su contenido parafraseándolo, haciéndolo más difícil de rastrear para ciertas herramientas de detección de IA.

En conclusión: Actualmente, ningún software de acceso abierto puede detectar contenido generado por IA con 100% de certeza.

P.3 – ¿Cómo se puede asegurar que la información de los chatbox no incurren en plagio?

ChatGPT-3

Para asegurarse de que la información proporcionada por los chatbots no incurra en plagio, debería seguir algunas recomendaciones:

  • Fuentes confiables: Asegurarse de que los desarrolladores del chatbot utilicen fuentes confiables y verificadas para entrenar y alimentar el chatbot con información. Esto ayudará a garantizar que la información proporcionada sea precisa y legítima.
  • Verificación cruzada: Siempre verifique la información proporcionada por el chatbot consultando múltiples fuentes independientes. Compare la información para asegurarse de que sea coherente y consistente en diferentes fuentes confiables.
  • Citas y referencias: Si el chatbot proporciona información específica, como datos, estadísticas o hechos, verifique si se citan las fuentes o si se proporcionan referencias bibliográficas. Esto le permitirá verificar la validez de la información y también determinar si se está atribuyendo correctamente el crédito a las fuentes originales.
  • Comprobación manual: Si tiene dudas sobre la información proporcionada por el chatbot, realice una investigación manual por su cuenta. Consulte libros, artículos académicos u otras fuentes reconocidas para obtener información adicional y asegurarse de que no haya plagio o información incorrecta.
  • Evalúe la calidad del contenido: Observe la calidad general del contenido proporcionado por el chatbot. Si nota una redacción inconsistente, errores gramaticales o información que parece poco confiable o dudosa, es posible que requiera cuestionar la precisión del chatbot en general.

Cuando se ofrece una respuesta que compila textos de otras fuentes de información, ¿qué garantías se tiene de que sean citas apropiadas y no son plagios? Es importante tener en cuenta que el uso de las respuestas generadas por el chatbox están bajo la responsabilidad del usuario. Si necesita información precisa y verificable, siempre es recomendable consultar fuentes confiables y citar adecuadamente cualquier contenido utilizado como libros, artículos académicos, sitios web, o consultar a expertos en el campo correspondiente. Estas fuentes son más adecuadas para obtener información precisa y asegurarse de que se respeten los derechos de autor y las citas correspondientes.

Qué dice Internet

“Lo que cabe discutir es si se puede calificar como autor a un software.”

A la fecha, el Instituto de Estudios Políticos de París, la Universidad RV de Bangalore, el Departamento de Educación de la ciudad de Nueva York; las escuelas públicas de Nueva Gales del Sur, Queensland, Tasmania y varias universidades de Australia han censurado o limitado el uso de chatbox como fuente de información.

Hay plagio si se infringe el derecho moral de “paternidad”.

Desde el punto de vista del usuario lo que se podría sostener es que quien entrega un texto redactado por un chatbot y lo atribuye como suyo podría incurrir en plagio, de la misma forma en que podría haber incurrido en plagio al usar la Wikipedia.4

La paternidad que tiene el autor original es siempre es una persona natural, nunca moral o jurídica. Por esto es pertinente

analizar si efectivamente se da el plagio, por cuanto se deben cumplir dos requisitos esenciales: por un lado, alegar como propia una obra que no es de propia autoría, pero, además, que se trate de una obra de autor ajeno.4

La pregunta se refiere a si ChatGPT como software puede incurrir en plagio.

Sí puede, si en el procesamiento de información que hace no atribuye correctamente la autoría (de la fuente de la que toma las respuestas) o si reproduce textos sin autorización del autor o autora.4

¿Sobre qué o en dónde reside la autoría? El tema se basa más en el planteamiento de si se pueden asignar o no derechos de propiedad sobre los datos en sí. Lo que cabe discutir es —desde la perspectiva legal actual— si se puede calificar como autor a un software.

Si los datos informáticos en el universo digital pueden ser objetos de derecho de propiedad en sí mismo, significa un cambio completo de lo que entendemos como propiedad intelectual, pues ya no sería central la persona humana como autor, sino el algoritmo que procesa los datos resultantes, y eso es un tema que es necesario discutir en el ámbito jurídico, pues la automatización de obras será algo más masivo cada año que pase y supondrá enormes desafíos jurídicos.4

Mientras que las leyes se ajustan, el debate se mantiene entre dos puntos: el legal y el ético. Desde el punto de vista legal no hay plagio “en la medida en que no se está cambiando el nombre de un autor por otro, pero desde el punto de vista ético-académico, sí hay una infracción ética.”4

P.4 – ¿Es cierto que los chatbox generan referencias bibliográficas que no existen?

ChatGPT-3

No, los chatbots en sí mismos no generan referencias bibliográficas que no existen. Los chatbots son programas de software diseñados para interactuar con los usuarios y proporcionar respuestas basadas en los datos y algoritmos con los que han sido entrenados. No tienen la capacidad de generar referencias bibliográficas ni conocimiento propio.

Sin embargo, es posible que los chatbots estén programados para buscar y proporcionar información referidas en una base de datos o un conjunto de recursos previamente establecidos. En algunos casos, si la base de datos subyacente contiene información errónea o no está actualizada, es posible que el chatbot proporcione referencias incorrectas o desactualizadas sin ser consciente de ello.

Las características que vienen con las actualizaciones pagas pueden reducir estas dudas pues las salidas de GPT-4 aún muestran problemas de “alucinaciones”, pero en menor medida. El soporte de complementos introducido en marzo de 2023 (disponible con suscripción paga) también ayudará a solucionar algunos de estos problemas.

Es importante destacar que la responsabilidad recae en los desarrolladores y en la calidad de los datos con los que se ha entrenado el chatbot. Si se utilizan fuentes de información confiables y se actualizan regularmente, es menos probable que ocurran situaciones en las que se generen referencias bibliográficas incorrectas o inexistentes.

Qué dice Internet

Varios usuarios han señalado ejemplos en los que ChatGPT ha atribuido erróneamente o fabricado citas, lo que sugiere que sus datos de capacitación se inclinan hacia una actitud bastante libre y facilita el error o incluso el plagio.

Un caso concreto, como ejemplo, que fue publicado recientemente David,5 cita al chatbox que informa: “Un estudio de la Association for the Advancement of Science (AAAS) encontró que los artículos sobre los que se tuiteó tenían un promedio 9% mayor de citas.” Al comprobarse que no existía la cita, se le vuelve a preguntar por el error. La explicación y disculpa adicional del chatbox suenan huecas, ya que evitó la pregunta sobre cómo fabricó un estudio a partir de la nada. Carecer de vigencia no es lo mismo que mentir, y sus disculpas repetitivas se leen como meramente excusas.

Mis reflexiones (humanas)

Como primeras conclusiones puedo entender

  • Actualmente, ningún software de acceso abierto puede detectar contenido generado por IA con 100% de certeza. Y no parece que el escenario vaya a mejorar.
  • Si necesito información precisa y verificable, deberé consultar fuentes confiables y citar adecuadamente cualquier contenido, o consultar a expertos en el campo correspondiente.

Hasta este punto no parece que cambie mucho el entorno de publicación científica.

Pero…

Lo que cabe discutir es si se puede calificar como autor a un software… pues entonces,

  • ¿en dónde reside la autoría?,
  • ¿en los algoritmos?,
  • ¿en las plataformas que los desarrollan?

Más inquietante aún

  • ¿se podrán asignar derechos de propiedad sobre los datos en sí?
  • lo que cabe discutir —desde la perspectiva legal actual— si se podría calificar como autor a un software.

Posts de la serie sobre Inteligencia Artificial (IA)

Notas

1. La información publicada por OpenAI dice que tiene más de 175 mil millones de parámetros, 300 mil millones de palabras, ha recibido 10 millones de consultas de 25 millones de visitantes por día, la versión pública actual se entrenó con 570GB de webs, libros y otras fuentes.

2. GAO, C.A., et al. Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers [online]. bioRxiv. 2022 [viewed 17 November 2023]. https://doi.org/10.1101/2022.12.23.521610. Available from: https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1

3. El 20 de julio de 2023, OpenAI resolvió cancelar la aplicación debido a la baja tasa de precisión.

4. RAMOS, R. ChatGPT: Si el autor no es humano, ¿existe plagio? [online]. LexLatin. 2023 [viewed 17 November 2023]. Available from: https://lexlatin.com/reportajes/chatgpt-plagio-autor-no-humano

5. DAVID, E. OpenAI Can’t Tell If Something Was Written by AI after All [online]. The Verge. 2023 [viewed 17 November 2023]. Available from: https://www.theverge.com/2023/7/25/23807487/openai-ai-generated-low-accuracy

Referencias

AWAN, A.A. Top 10 Tools for Detecting ChatGPT, GPT-4, Bard, and Claude [online]. KDnuggets, 2023 [viewed 17 November 2023]. Available from: https://www.kdnuggets.com/2023/05/top-10-tools-detecting-chatgpt-gpt4-bard-llms.html

CROTHERS, E., NAPKOWICZ, N. and VIKTOR, H. Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods [online]. arXiv. 2023 [viewed 17 November 2023]. https://doi.org/10.48550/arXiv.2210.07321. Available from: https://arxiv.org/abs/2210.07321

DAVID, E. OpenAI Can’t Tell If Something Was Written by AI after All [online]. The Verge. 2023 [viewed 17 November 2023]. Available from: https://www.theverge.com/2023/7/25/23807487/openai-ai-generated-low-accuracy

DAVIS, P. Did ChatGPT Just Lie To Me? [online] The Scholarly Kitchen, 2023 [viewed 17 November 2023]. Available from: https://scholarlykitchen.sspnet.org/2023/01/13/did-chatgpt-just-lie-to-me/

DEMERS, T. 16 of the best AI and ChatGPT content detectors compared [online]. Search Engine Land. 2023 [viewed 17 November 2023]. Available from: https://searchengineland.com/ai-chatgpt-content-detectors-395957

DHEDA, G. Can Turnitin Detect Chat GPT? [online]. Open AI Master. 2023 [viewed 17 November 2023]. Available from: https://openaimaster.com/can-turnitin-detect-chat-gpt/

GAO, C.A., et al. Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers [online]. bioRxiv. 2022 [viewed 17 November 2023]. https://doi.org/10.1101/2022.12.23.521610. Available from: https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1

HEIKKILÄ, M. A Watermark for Chatbots Can Expose Text Written by an AI [online]. MIT Technology Review. 2023 [viewed 17 November 2023]. Available from: https://www.technologyreview.com/2023/01/27/1067338/a-watermark-for-chatbots-can-spot-text-written-by-an-ai/

MARTI, P. Detectores de IA: ¿Se puede saber si un texto está escrito por la IA? [online]. Raona. 2023 [viewed 17 November 2023]. Available from: https://www.raona.com/detectores-ia/

RAMOS, R. ChatGPT: Si el autor no es humano, ¿existe plagio? [online]. LexLatin. 2023 [viewed 17 November 2023]. Available from: https://lexlatin.com/reportajes/chatgpt-plagio-autor-no-humano

SABEL, B.A., et al. Fake Publications in Biomedical Science: Red-Flagging Method Indicates Mass Production [online]. medRxiv. 2023 [viewed 17 November 2023]. https://doi.org/10.1101/2023.05.06.23289563. Available from: https://www.medrxiv.org/content/10.1101/2023.05.06.23289563v2

Enlaces externos

AI Content Detector: https://contentatscale.ai/ai-content-detector/

AI Text Classifier https://platform.openai.com/ai-text-classifier

ChatGPT: https://chat.openai.com/

GPTZero: https://gptzero.me/

OpenAI Detector https://openai-openai-detector.hf.space/

Quillbot https://quillbot.com/

Undetectable https://undetectable.ai/

 

Sobre Ernesto Spinak

Colaborador de SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.

author avatar
Ernesto Spinak
Colaborador do SciELO, engenheiro de Sistemas e licenciado en Biblioteconomia, com diploma de Estudos Avançados pela Universitat Oberta de Catalunya e Mestre em “Sociedad de la Información" pela Universidad Oberta de Catalunya, Barcelona – Espanha. Atualmente tem uma empresa de consultoria que atende a 14 instituições do governo e universidades do Uruguai com projetos de informação.

 

Como citar este post [ISO 690/2010]:

SPINAK, E. IA: Cómo detectar textos producidos por chatbox y sus plagios [online]. SciELO en Perspectiva, 2023 [viewed ]. Available from: https://blog.scielo.org/es/2023/11/17/ia-como-detectar-textos-producidos-por-chatbox-y-sus-plagios/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation