Publicación en Large Language Model (LLM) [Publicado originalmente en el blog Upstream en enero/2024]

Por Jeff Pooley

Fotografía superpuesta de varios libros con las páginas dobladas en forma de avión sobre un fondo negro infinito.

El New York Times dio la bienvenida al Año Nuevo con una demanda contra OpenAI y Microsoft. El periódico cubrió la demanda, apropiadamente, como una historia comercial importante. OpenAI y su patrocinador Microsoft habían robado, según el expediente, “millones de artículos de noticias protegidos por derechos de autor del Times, investigaciones en profundidad, artículos de opinión, reseñas, guías prácticas” y más, todo para entrenar los grandes modelos de lenguaje (largue language models, LLMs) de OpenAI. El Times presentó una demanda para detener el “aprovechamiento gratuito” de las empresas de tecnología del “periodismo singularmente valioso” del periódico.

OpenAI y Microsoft, por supuesto, han citado el uso legítimo para justificar sus préstamos sin permiso. A lo largo de 70 páginas amargas, los abogados del Times examinaron con una excavadora los cuatro factores que los jueces estadounidenses consideran para el uso legítimo. El informe también señala daños a la reputación, provenientes de respuestas inventadas que ChatGPT o Bing Chat atribuyen al Times: “En términos sencillos, es desinformación”.

No hay duda de que los abogados de Elsevier y otros gigantes de las publicaciones académicas están leyendo atentamente el expediente del Times. Notarán un leitmotiv: las costosas historias del periódico producen conocimiento confiable, que de otro modo escasea. En un “ecosistema de información dañado […] inundado de contenido poco confiable”, el periodismo del Times es un “conjunto de datos excepcionalmente valioso” para el entrenamiento de IA (inteligencia artificial), afirma el documento. Otras organizaciones de noticias tienen la misma opinión; algunos han firmado acuerdos de licencia, mientras que otros están negociando con OpenAI y sus pares. No más viajes gratis.

Es muy probable que las grandes editoriales académicas estén de acuerdo. Y se encuentran en el otro corpus de conocimiento, ciencia y erudición examinados. Por lo tanto, es casi seguro que las conversaciones sobre la licencia estén en marcha, y sin duda se están preparando amenazas y demandas. Al mismo tiempo, los editores comerciales están creando sus propios productos de IA. En el año transcurrido desde la llamativa entrada de ChatGPT, al menos tres de las cinco grandes editoriales académicas, además de Clarivate, han anunciado herramientas y funciones impulsadas por LLM. A ellos se unen docenas de nuevas empresas respaldadas por capital de riesgo (objetivos de adquisición, todas y cada una) que prometen un impulso de la IA en todo el flujo de trabajo académico, desde la búsqueda de literatura hasta la redacción de resúmenes y la edición de manuscritos.

Por lo tanto, las dos principales fuentes de conocimiento confiable, la ciencia y el periodismo, están preparadas para extraer dinero por protección, para de otro modo explotar sus vastas reservas de textos examinados como “datos de entrenamiento”. Pero hay una diferencia clave entre las noticias y la ciencia: los salarios de los periodistas y el costo de informar los cubren las empresas. No ocurre lo mismo con las publicaciones académicas: los académicos, por supuesto, escriben y revisan de forma gratuita, y gran parte de nuestra investigación está financiada por los contribuyentes. La demanda del Times está plagada de quejas sobre el costoso negocio del periodismo. Empresas como Taylor & Francis y Springer Nature no tendrán ese argumento que presentar. Es difícil denunciar el parasitismo cuando se trata de su propio modelo de negocio.

Supervisión de Publicación, Edición LLM

La exagerada espuma del ciclo publicitario de la IA ha llegado a las publicaciones académicas. La adopción febril, aunque en su mayor parte aspiracional, de la IA por parte de la industria debe leerse como la última entrega de una campaña en curso.¹ Liderados por Elsevier, los editores comerciales, durante aproximadamente una década, han agregado otro negocio a sus operaciones editoriales heredadas. Ese negocio consiste en extraer y procesar los trabajos y el comportamiento de los académicos en productos de predicción, vendidos a universidades y agencias de investigación. Elsevier, por ejemplo, vende un software para tablet, Pure, a las oficinas de evaluación de las universidades, uno que asigna a cada uno de los investigadores de la escuela una huella digital (Fingerprint®) de palabras clave ponderadas. Los datos subyacentes provienen de Scopus de Elsevier, la base de datos de resúmenes y citas propiedad de la empresa. Así, el académico es el producto: sus artículos y referencias alimentan a Scopus y Pure, que luego se venden a su empleador universitario. Esa misma universidad, por supuesto, ya desembolsa suscripciones usureras y dólares en APC (article processing charges) a Elsevier, que, en una dolorosa ironía, han financiado la misma borrachera de adquisiciones que transformó a la empresa en una editorial completa.

Elsevier y las otras grandes editoriales son, para tomar prestada la frase de Sarah Lamdan, cárteles de datos. He llamado a este impulso para extraer ganancias de las publicaciones como vigilancia del comportamiento de los investigadores, por analogía con la noción de capitalismo de vigilancia de Shoshana Zuboff, en que las empresas como Google y Meta empaquetan datos de usuarios para venderlos a los anunciantes. La estrategia central empresarial es la misma para Silicon Valley y Elsevier: extraer datos del comportamiento para alimentar modelos predictivos que, a su vez, se refinan y se venden a los clientes. En un caso se trata de publicaciones en Facebook y en el otro de resúmenes y citas, pero en cualquier caso el punto es ganar dinero a partir de los subproductos del comportamiento (del consumidor o académico). Una gran diferencia entre las grandes empresas tecnológicas y los editores es que Google y otros atraen a los usuarios con servicios gratuitos como Gmail: si no pagas por ellos, dice el refrán, entonces tú eres el producto. En el caso de Elsevier somos el producto y pagamos (mucho) por él.

Elsevier y algunas de las otras grandes editoriales ya aprovechan su gran cantidad de datos académicos para, por ejemplo, asignar palabras clave a académicos y obras. De hecho, llevan años utilizando la llamada IA, incluidas variaciones de las técnicas de aprendizaje automático (ML), que han ido en aumento en los últimos 15 años aproximadamente. Lo que es diferente acerca de la inminente ganancia inesperada de licencias de los editores y la ola de herramientas anunciadas es, en una palabra, ChatGPT. Es cierto que versiones sucesivas de enormes modelos de “lenguaje grande” de OpenAI, Google y otros han estado dando vueltas en círculos comerciales y académicos durante años. Pero el lanzamiento público de ChatGPT en noviembre de 2022 cambió las reglas del juego. Entre otras cosas, y casi de la noche a la mañana, el valor del contenido adquirió un color diferente. Cada uno de los gigantescos modelos “fundacionales”, incluida la serie GPT de OpenAI, se alimenta de prodigiosas porciones de texto. El apetito por dichos datos de capacitación no está saciado, incluso cuando la legalidad de la ingesta en curso es una cuestión abierta y litigiosa.

Las grandes editoriales creen que tienen una mina de oro. No se trata solo de su beca de texto completo tras los muros de pago, sino también de la gran cantidad de otros datos que obtienen de los académicos a través de sus plataformas y productos. Al menos en teoría, su contenido propietario está (a diferencia del espectáculo de payasos de la web abierta) examinado y vinculado. Sobre esa base, los observadores han declarado que los editores pueden ser los “mayores ganadores” en la revolución de la IA generativa. Tal vez. Pero de cualquier manera, espere que Springer Nature, Taylor & Francis, Elsevier, Wiley y SAGE pongan a prueba la teoría.

Cotorras con Alucinaciones

Los modelos de lenguaje verdaderamente grandes, como los que impulsan ChatGPT y Bard, son notorios fabuladores. De manera rutinaria y segura, devuelven lo que el eufemismo de la industria llama “alucinaciones“. Algunos observadores esperan que el problema siga empeorando a medida que el material generado por LLM inunde Internet. Los grandes modelos, a causa de este miedo, se alimentarán de su propia prosa plagada de falsedades en rondas de entrenamiento posteriores, una especie de canibalismo en lenguaje grande que, con el tiempo, podría desplazar a cualquier porción de la red anterior al LLM que fuera más-o-menos -menos veraz.

Una solución al problema, con la acumulación de capital de riesgo y el impulso del ciclo publicitario, es recurrir a los llamados “modelos de lenguaje pequeños”. La idea es aplicar las mismas técnicas de reconocimiento de patrones, pero en conjuntos de datos seleccionados y específicos de un dominio. Una ventaja de los modelos más pequeños, según sus defensores, es su capacidad de restringir los datos de entrenamiento a lo conocido y verificable. La premisa es que, cuanto menos basura entre, menos basura saldrá.

Así que no sorprende que el registro científico publicado haya surgido, en los rumores de la industria, como un eliminador de alucinaciones especialmente prometedor. Se piensa que aquí hay un conjunto de conocimientos examinados, acordonados por fuera de la Babelist de Internet. Lo que hace que el corpus de investigación sea diferente es, bueno, la revisión por pares y el control editorial, junto con las convenciones de citas y el supuesto compromiso de los académicos con una cultura de crítica autocorregible. Por lo tanto, el registro publicado es, entre los cuerpos de texto explotables, excepcionalmente confiable. O eso es lo que afirman los evangelistas en lenguaje pequeño.

Aquí entra Elsevier y sus pares oligopólicos. Protegen (con vigilancia de pago) una gran parte de los estudios publicados, muchos de los cuales no se pueden descartar. Es cierto que una proporción cada vez mayor de su producción total es de acceso abierto, y una gran parte de ese material tiene una licencia no comercial. Los acuerdos estándar de acceso abierto tienden a otorgar a los editores derechos generales, por lo que tienen un derecho (aunque cuestionado por motivos de uso legítimo por parte de OpenAI y similares) a la explotación exclusiva. Incluso el resto de las obras de acceso abierto que permiten la reutilización comercial están encorraladas con el resto, en plataformas patentadas como ScienceDirect de Elsevier. Esas plataformas también rastrean el comportamiento de los investigadores, como descargas y citas, que pueden usarse para ajustar los resultados de sus modelos. En teoría, estos modelos podrían alimentarse de plataformas bibliográficas patentadas, como Web of Science de Clarivate, Scopus de Elsevier y Dimensions de Digital Science (propiedad de la empresa matriz de Springer Nature).

“La Colección más Grande del Mundo”

Un área en la que ya están incursionando varios grandes editores es el resumen basado en búsquedas. Elsevier está probando Scopus AI y se espera un lanzamiento a principios de 2024. Los investigadores escriben preguntas en lenguaje natural y obtienen un resumen, con algunas preguntas de seguimiento y referencias sugeridas, que abren una vista de ScienceDirect en la barra lateral. Los resultados de Scopus AI también incluyen un “Mapa conceptual”, un árbol expandible basado en temas, presumiblemente impulsado por las palabras clave de las huellas de identificación de la empresa.

La herramienta está combinando sus títulos y resúmenes de Scopus (a partir de 2018) y luego introduce los 10 resultados principales en un modelo OpenAI GPT para resumirlos. Elsevier no es tímida de su ventaja en términos de tesoro de datos: Scopus AI está “basado en la colección más grande del mundo de literatura académica confiable y revisada por pares”, proclama un llamativo video promocional.

Springer Nature y Clarivate también participan en la competencia de los resúmenes de búsqueda. Dimensions, el competidor de Scopus del hermano corporativo de Springer Nature, tiene un asistente de IA de Dimensions en prueba. Al igual que Scopus AI, la herramienta Dimensions recupera una pequeña cantidad de resúmenes basados en búsquedas conversacionales, recurriendo a modelos de OpenAI y Google para los resúmenes.

Mientras tanto, Clarivate, propietaria de Web of Science y ProQuest, ha llegado a un acuerdo con AI21 Labs, una startup israelí de LLM (lema: “Cuando las Máquinas se Convierten en Socios de Pensamiento”). Utilizando el “contenido confiable de Clarivate como base”, AI21 promete utilizar sus modelos para generar “respuestas y servicios de alta calidad basados en el contexto”, con lo que francamente llama “los tesoros de contenido y datos de Clarivate”.

Las grandes empresas competirán con un grupo de nuevas empresas respaldadas por capital de riesgo, incluidas Ought (“Ampliar el buen razonamiento”), iris.ai (“The Researcher Workspace”), SciSummary (“Utilice IA para resumir artículos científicos en segundos”) , Petal (“Chatea con tus documentos”), Jenni (“Mejora tu próximo trabajo de investigación”), scholarcy (“El resumidor de artículos impulsado por IA”), Imagetwin (“Aumenta la calidad en la ciencia”), keenious (“Encuentra investigaciones relevante para cualquier documento!”), y Consensus (“Motor de búsqueda de IA para investigación”.

Una pregunta abierta es si las startups pueden competir con las grandes editoriales; muchos utilizan la base de datos de acceso abierto Semantic Scholar, que excluye el texto completo de los artículos de pago. Han obtenido mucho respaldo de capital de riesgo, pero, si la industria de la IA en general sirve de guía, las nuevas empresas enfrentarán un camino cuesta arriba para mantenerse independientes. Después de todo, la IA comercial está dominada por un puñado de corporaciones gigantes estadounidenses y chinas, casi todas grandes empresas tecnológicas. La industria tiene feroces economías de escala, en gran parte porque la construcción de modelos requiere enormes recursos financieros y humanos.

Es muy posible que las grandes editoriales se encuentren en una posición privilegiada similar. Los depósitos de artículos de texto completo y otros datos de propiedad privada de las empresas son una ventaja incorporada. Sus márgenes astronómicos en los negocios tradicionales de suscripción y publicación con APC significan que tienen el capital disponible para invertir y adquirir. La racha de adquisiciones de Elsevier que duró una década fue, de la misma manera, financiada por sus lucrativas ganancias. Hay muchas razones para esperar que la empresa financie sus costosas inversiones en LLM con el mismo superávit. Es probable que los pares de Elsevier sigan su ejemplo. Por lo tanto, las universidades y los contribuyentes están sirviendo, de hecho, como un fondo de capital para productos de IA que, a su vez, nos serán vendidos. Es posible que las nuevas empresas independientes se adquieran en el camino. Los propios editores gigantes pueden ser objetivos de adquisición para las empresas aún más grandes de Silicon Valley, ávidas de datos de capacitación, como observó recientemente Avi Staiman en The Scholarly Kitchen.²

La borrachera de adquisiciones ya ha comenzado. En octubre, Springer Nature adquirió la división científica de Slimmer AI, un “estudio de riesgo de IA” holandés con el que el editor ha trabajado desde 2015 en herramientas de revisión por pares y detección de plagio. Mientras tanto, Digital Science acaba de comprar Writefull, que trabaja como asistente de redacción académica (para unirse a Curie, recientemente anunciada por su hermana corporativa Springer Nature). Digital Science presentó la adquisición como un modelo de lenguaje reducido: “Si bien el enfoque más amplio se centra actualmente en los LLM”, dijo un ejecutivo de la compañía en el comunicado de prensa,³ “los modelos pequeños y especializados de Writefull ofrecen más flexibilidad, a menor costo, con métricas auditables”. Research Solutions, una empresa de Nevada que vende acceso a contenidos de pago de las grandes editoriales comerciales a corporaciones, compró recientemente scite, una startup cuya novedosa oferta (contextos de citas) ha sido reenvasada como “ChatGPT para la ciencia”.

¿Uso justo?

Como sugiere la demanda del Times, hay un gran signo de interrogación legal sobre las perspectivas de IA de las grandes editoriales. La cuestión clave, que se abre paso en los tribunales, es el uso legítimo: ¿pueden empresas como OpenAI incorporar contenido protegido por derechos de autor a sus modelos, sin permiso ni compensación? Las empresas tecnológicas de Silicon Valley así lo creen; son nuevos conversos al maximalismo del uso legítimo, como lo revelan sus comentarios públicos presentados ante la Oficina de Derechos de Autor de EE.UU. El “mensaje general” de las empresas, informó The Verge en un resumen,⁴ es que “no creen que deban pagar para entrenar modelos de IA en trabajos protegidos por derechos de autor”. Los artistas y otros creadores de contenido han discrepado y han presentado un puñado de demandas de alto perfil.

Los editores aún no han presentado sus propias demandas, pero ciertamente están observando los casos con atención. Wiley, por su parte, dijo a Nature⁵ que estaba “siguiendo de cerca los informes y litigios de la industria que afirmaban que los modelos generativos de IA están recolectando material protegido con fines de capacitación, sin tener en cuenta las restricciones existentes sobre esa información”. La firma ha pedido auditorías y supervisión regulatoria de los modelos de IA para abordar el “potencial de uso no autorizado de contenido restringido como insumo para el entrenamiento de modelos”. Elsevier, por su parte, ha prohibido el uso de “nuestro contenido y datos” para capacitación; Asimismo, su empresa hermana LexisNexis envió recientemente un correo electrónico a sus clientes⁶ para “recordarles” que está prohibido enviar contenido a “grandes modelos lingüísticos e IA generativa”. CCC (nacida como Copyright Clearance Center), en sus propios comentarios a la Oficina de Derechos de Autor de EE.UU.,7 adoptó una postura predeciblemente contundente sobre la cuestión.

Ciertamente, hay suficiente material protegido por derechos de autor disponible bajo licencia para construir una IA confiable, viable y digna de confianza. El hecho de que un desarrollador quiera utilizar “todo” no significa que deba hacerlo, que esté habilitado a hacerlo o que tenga derecho a hacerlo. Los gobiernos y los tribunales tampoco deberían torcer o modificar la ley para acomodarlos.⁷

La CCC, una organización con fines de lucro, es el principal organismo encargado de otorgar licencias y permisos a la industria editorial. Las grandes empresas tecnológicas y los gigantes de las publicaciones comerciales ya están maniobrando para posicionarse. Como señaló Joseph Esposito [en una publicación reciente de Scholarly Kitchen],⁸ un agudo observador de las publicaciones académicas: “los editores científicos en particular pueden tener un papel especial y remunerativo que desempeñar aquí”.

Una consecuencia a corto plazo puede ser un cambio en el enfoque de las grandes editoriales respecto del acceso abierto. Las empresas ya están actualizando sus licencias y términos para prohibir la capacitación comercial en IA (para cualquiera que no sean ellos, por supuesto). Las empresas también podrían retirarse por completo del Open Access, para conservar una mayor proporción de contenido exclusivo para extraer. Esposito hizo explícito el argumento en la publicación reciente de Scholarly Kitchen: “El hecho desafortunado del asunto es que el movimiento OA y las personas y organizaciones que lo apoyan han sido cooptados por el mundo tecnológico mientras construyen IA entrenada en contenido”.⁸ Los editores necesitan “más protección de los derechos de autor, no menos”, añadió. La firma consultora de Esposito, en su último boletín,⁹ calificó la licencia liberal Creative Commons BY como un “mecanismo para transferir valor de los editores científicos y académicos a las empresas tecnológicas más ricas del mundo”. Quizás, aunque quisiera comenzar con este punto: la publicación académica comercial es un mecanismo para transferir valor de los académicos, los contribuyentes y las universidades a las empresas más rentables del mundo.

El efecto Mateo en la IA

Hay ciento una razones para preocuparse de que Elsevier explote nuestra beca para maximizar sus ganancias. Quiero detenerme en lo que podría decirse que es lo más importante: los efectos potenciales sobre el conocimiento mismo. En el centro de estas herramientas, incluida una avalancha predecible de productos aún no anunciados, hay una serie de verbos: sacar a la luz, clasificar, resumir y recomendar. El objeto de cada verbo somos nosotros: nuestra erudición y nuestro comportamiento. Lo que está en juego es el tipo de conocimiento que emergen de los modelos y de quién es el conocimiento.

Los modelos de IA están preparados para servir como árbitros del conocimiento, seleccionando ganadores y perdedores según lo que hacen visible. Hay dos grandes problemas entrelazados con este rol: los modelos están entrenados en el pasado y su lógica de filtrado es inescrutable. Como resultado, pueden introducir de contrabando los numerosos sesgos que marcan la historia de la erudición en torno al género, la geografía y otras líneas de diferencia. En este contexto, resulta útil revivir un viejo concepto de la sociología de la ciencia. Según el efecto Mateo, nombrado por Robert Merton hace décadas, los académicos destacados y bien citados tienden a recibir aún más prominencia y citas. La otra cara de la moneda es que los académicos menos citados tienden a caer en una mayor oscuridad con el tiempo. (“Porque al que tiene se le dará más, y tendrá en abundancia; pero al que no tiene, hasta lo que tiene le será quitado”— Mateo 25:29.) Estas dinámicas que la ventaja acumulativa tiene, en la práctica, sirvieron para amplificar las desigualdades sistemáticas del sistema de conocimiento (por ejemplo, en el caso del género y la erudición del siglo XX, acertadamente denominado Efecto Matilda por Margaret Rossiter).

El despliegue de modelos de IA en la ciencia, especialmente los patentados, puede producir un efecto Mateo en la escala de Scopus, y sin rastro documental. El problema es análogo al bien documentado contrabando de sesgos con los modelos generativos existentes; las herramientas de imagen entrenadas, por ejemplo, con fotografías en su mayoría blancas y masculinas, reproducen la distorsión en los resultados generados mediante indicaciones. Con nuestra erudición cargada de sesgos como datos de capacitación, los modelos académicos pueden arrojar resultados que, de hecho, repliquen la desigualdad. Lo peor es que no lo sabremos realmente, debido al carácter de caja negra de los modelos. Por lo tanto, las herramientas pueden actuar como máquinas de lavado: abstracciones que borran el contexto y disfrazan su “razonamiento” probabilístico. Los sesgos existentes, como la propensión de los académicos varones a autocitarse, pueden ganar una nueva capa de legitimidad algorítmica. O consideremos la dinámica centro-periferia a lo largo de líneas Norte-Sur y de habla inglesa nativa: las brechas que se pueden rastrear hasta la historia geopolítica, incluido el legado del colonialismo europeo, pueden estar enterradas aún más profundamente. En resumen, los modelos podrían servir como multiplicadores de privilegios.

Los modelos de IA no van a desaparecer, pero deberíamos exigir que, en la medida de lo posible, las herramientas y los modelos estén sujetos a escrutinio y estudio. Esto significa descartar productos propietarios, a menos que puedan abrirse mediante ley o regulación. Mientras tanto, deberíamos incorporar los modelos internamente, dentro del ámbito académico, utilizando colecciones alineadas con la misión como CORE de la Open University y Semantic Scholar del Instituto Allen. Los esfuerzos liderados por la academia para construir modelos y herramientas sin fines de lucro deben ser transparentes, explicables y auditables.

Dejar de hacer el seguimento a la beca

Estos son los primeros días. La inseguridad jurídica, la burbuja virtual, la prosa sin aliento del informe anual: todo apunta a la aspiración y la prospección de la alta dirección. Todavía no vivimos en un mundo de modelos editoriales de lenguaje reducido, entrenados en nuestro trabajo y comportamiento.

Aún así, estoy convencido de que los cinco grandes editores, además de Clarivate, harán todo lo posible para aumentar sus márgenes con nuevos ingresos de la IA. Supongo que desarrollarán y seguirán en su camino hacia una cartera de productos a lo largo y ancho del ciclo de vida de la investigación, según el modelo completo existente de Elsevier. Después de todo, y dependiendo de lo que entendemos por IA, los editores comerciales llevan años lanzando productos de IA. Cada señal sugiere que acelerarán el ritmo, con una búsqueda exagerada de modelos de lenguaje estilo GPT en particular. Nos venderán sus propios productos y, predigo, otorgarán licencias de nuestros artículos a los grandes modelos de financiadores, por voluntad judicial.

Por lo tanto, es una tarea urgente retroceder ahora y no esperar hasta que los modelos estén entrenados y desplegados. Lo que se necesita es una campaña en toda regla, que aproveche el activismo y la presión legislativa, para desafiar la agenda extractiva de los editores comerciales. Un paso crucial en el marco es tratar la inminente avalancha de IA como una continuación (como una extensión) de la mutación en curso de los editores hacia negocios de datos de vigilancia capitalista. La era de la vigilancia de editores comenzó simbólicamente en 2015, cuando Reed-Elsevier adoptó su “nombre más corto y moderno” RELX Group para marcar su “transformación” de editor a “negocio impulsado por tecnología, contenido y análisis”. Han cumplido su promesa, rozando la crema conductual de los académicos con avidez producto por producto. Los pares de Clarivate y Elsevier han seguido su ejemplo.

Por lo tanto, el giro hacia la IA es más de lo mismo, sólo que más. El cóctel de probabilidad, predicción y beneficio de los editores se basa en el mismo proceso: extraer nuestra erudición y comportamiento, y luego revendernoslo en forma congelada. Hay más en juego dado que algunas de las editoriales están integradas en conglomerados de análisis de datos: RELX (Elsevier) e Informa (Taylor & Francis), a los que se unen empresas adyacentes a las editoriales como Clarivate y Thomson Reuters. ¿Están las empresas polinizando sus negocios académicos y de “soluciones de riesgo”? LexisNexis de RELX vendió herramientas de seguimiento facial y otras herramientas de vigilancia a la Oficina de Aduanas y Protección Fronteriza de EE.UU. el año pasado, como informó recientemente The Intercept.¹⁰ Como lo expresó SPARC (la alianza de bibliotecas) en su informe de noviembre en la plataforma ScienceDirect de Elsevier: “Hay poco o nada que impida que los proveedores que recopilan y rastrean los datos de los usuarios [de la biblioteca] proporcionen esos datos, ya sea en su forma cruda o en conjunto. en su negocio de intermediación de datos”.¹¹

Hasta ahora, la acumulación de datos por parte de los editores no ha impulsado a los académicos a protestar. La razón principal es que la mayoría de los académicos ignoran alegremente el seguimiento, lo cual no sorprende, dada la ignorancia de los académicos, demasiado ocupada como para preocuparse, sobre el sistema de publicación en sí. La comunidad bibliotecaria está mucho más en sintonía con el saqueo no consentido, aunque los bibliotecarios (aparte de SPARC) no se han organizado sobre el tema. Ha habido notas dispersas de disensión, incluida una petición Stop Tracking Science para detener el seguimiento de la ciencia y una protesta de académicos holandeses por un acuerdo de datos y publicación de 2020 con Elsevier, en gran parte porque la compañía había incluido sus productos de predicción en el acuerdo. En 2022, la fundación nacional de investigación alemana, Deutsche Forschungsgemeinschaft (DFG), publicó su propio informe-advertencia: “industrialización del conocimiento mediante el seguimiento”,¹² en palabras del informe. A intervalos regulares han aparecido duras críticas de, entre otros Bjorn Brembs, Leslie Chan, Renke Siems, Lai Ma, y Sarah Lamdan.

Nada de esto se ha traducido en mucho, ni siquiera en conciencia entre el público académico en general. Una campaña coordinada de promoción y concientización debe ir acompañada de estudios profundos y de alta calidad sobre la recopilación de datos de los editores, como el ejemplo del reciente informe ScienceDirect de SPARC.¹³ Cualquier esfuerzo como éste debería basarse en la premisa de que otro mundo de publicaciones académicas es posible. Nuestro actual acuerdo de custodia compartida (editores con fines de lucro y universidades sin fines de lucro) es un desarrollo reciente y reversible. Hay muchas buenas razones para devolver la custodia a la academia. La última es evitar que nuestro trabajo impulse las ganancias de la IA de los editores.

Notas

1. El término en sí es engañoso, aunque ahora inevitable. Por IA (inteligencia artificial), me refiero principalmente al conjunto de técnicas que ahora se agrupan habitualmente bajo la etiqueta de “aprendizaje automático”. Hay una ironía en esta captura lingüística. Durante décadas después de su acuñación a mediados de la década de 1950, la “inteligencia artificial” se utilizó para designar un enfoque rival, basado en reglas y símbolos. Lo que hoy casi todo el mundo llama IA estaba, hasta hace unos 30 años, excluido del club. La historia de cómo las redes neuronales y otras técnicas de aprendizajbe automático lograron la aceptación aún no ha encontrado su cronista. Lo que está claro es que una fuerte caída de la financiación en la década de 1980 (el llamado “invierno de la IA”) convirtió al otrora excluido rival del aprendizaje automático (sus éxitos predictivos se exhibieron durante las décadas siguientes) en una ayuda muy atractiva para recuperar el poder y conceder dinero. Este ensayo se basa en una charla invitada pronunciada para la serie de coloquios Horizons de la Universidad de Colgate en octubre de 2023.

2. STAIMAN, A. Will Building LLMs Become the New Revenue Driver for Academic Publishing? [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/08/08/will-building-llms-become-the-new-revenue-driver-for-academic-publishing/

3. Digital Science acquires AI service Writefull [online]. Research Information. 2023 [viewed 19 January 2024]. Available from: https://www.researchinformation.info/news/digital-science-acquires-ai-service-writefull

4. DAVIS, W. AI companies have all kinds of arguments against paying for copyrighted content [online]. 2023 [viewed 19 January 2024]. The Verge. Available from: https://www.theverge.com/2023/11/4/23946353/generative-ai-copyright-training-data-openai-microsoft-google-meta-stabilityai

5. GEMMA, C. How ChatGPT and other AI tools could disrupt scientific publishing. Nature [online]. 2023, vol. 622, no. 7982, pp. 234-236 [viewed 19 January 2024]. https://doi.org/10.1038/d41586-023-03144-w. Available from: https://www.nature.com/articles/d41586-023-03144-w

6. POWERS, M.P. Generative AI Meets Scientific Publishing [online]. Optics & Photonics News [online]. 2023, vol. 34 [viewed 19 January 2024]. Available from: https://www.optica-opn.org/home/articles/volume_34/october_2023/features/generative_ai_meets_scientific_publishing/

7. KAUFMAN, R. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/11/28/the-united-states-copyright-office-notice-of-inquiring-on-ai-a-quick-take/

8. ESPOSITO, J. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/07/12/who-is-going-to-make-money-from-artificial-intelligence-in-scholarly-communications/

9. GEMINI [online]. Clarke & Esposito. 2023 [viewed 19 January 2024]. Available from: https://www.ce-strategy.com/the-brief/gemini/

10. BIDDLE, S. LexisNexis Sold Powerful Spy Tools to U.S. Customs and Border Protection [online]. The Intercept. 2023 [viewed 19 January 2024]. Available from: https://theintercept.com/2023/11/16/lexisnexis-cbp-surveillance-border/

11. YOOSE, B. and SHOCKEY, N. Navigating Risk in Vendor Data Privacy Practices: An Analysis of Elsevier’s ScienceDirect [online]. Zenodo. 2023 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.10078610. Available from: https://zenodo.org/doi/10.5281/zenodo.10078609

12. Data tracking in research: aggregation and use or sale of usage data by academic publishers [online]. DFG Scientific Library Services and Information Systems (LIS). 2021 [viewed 19 January 2024]. Deutsche Forschungsgemeinschaft. https://doi.org/10.5281/zenodo.5937994. Available from: https://www.dfg.de/resource/blob/174924/d99b797724796bc1a137fe3d6858f326/datentracking-papier-en-data.pdf

13. SPARC Report Urges Action to Address Concerns with ScienceDirect Data Privacy Practices [online]. SPARC. 2023 [viewed 19 January 2024]. Available from: https://sparcopen.org/news/2023/sparc-report-urges-action-to-address-concerns-with-sciencedirect-data-privacy-practices/

Referências

Addressing the Alarming Systems of Surveillance Built By Library Vendors [online]. SPARC. 2021 [viewed 19 January 2024]. Available from: https://sparcopen.org/news/2021/addressing-the-alarming-systems-of-surveillance-built-by-library-vendors/

Announcing AI2 OLMo, an Open Language Model Made by Scientists, for Scientists [online]. AI2 Blog, 2023 [viewed 19 January 2024]. Available from: https://blog.allenai.org/announcing-ai2-olmo-an-open-language-model-made-by-scientists-for-scientists-ab761e4e9b76

Annual Reports and Financial Statements 2015 [online]. Relx Group. 2015 [viewed 19 January 2024]. Available from: https://www.relx.com/~/media/Files/R/RELX-Group/documents/reports/annual-reports/2015-annual-report.pdf

BIDDLE, S. LexisNexis Sold Powerful Spy Tools to U.S. Customs and Border Protection [online]. The Intercept. 2023 [viewed 19 January 2024]. Available from: https://theintercept.com/2023/11/16/lexisnexis-cbp-surveillance-border/

BREMBS, B. Algorithmic Employment Decisions In Academia? [online]. Björn Brembs Blogs, 2023 [viewed 19 January 2024]. Available from: https://bjoern.brembs.net/2021/09/algorithmic-employment-decisions-in-academia/

BREWSTER, F. Big Tech Is Lobbying Hard to Keep Copyright Law Favorable to AI [online]. JACOBIN. 2023 [viewed 19 January 2024]. Available from: https://jacobin.com/2023/11/artificial-intelligence-big-tech-lobbying-copyright-infringement-regulation/

BRUELL, A. ChatGPT Creator OpenAI to Pay Politico Parent for Using Its Content [online]. The Wall Street Journal. 2023 [viewed 19 January 2024]. Available from: https://www.wsj.com/business/media/openai-to-pay-politico-parent-axel-springer-for-using-its-content-bdc33332

CHAN, L. Platform Capitalism and the Governance of Knowledge Infrastructure. In: Digital Initiative Symposium, San Diego, 2019 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.2656601. Available from: https://zenodo.org/records/2656601

Clarivate Announces Partnership with AI21 Labs as part of its Generative AI Strategy to Drive Growth [online]. Clarivate. 2023 [viewed 19 January 2024]. Available from: https://allenai.org/data/s2orc

Data tracking in research: aggregation and use or sale of usage data by academic publishers [online]. DFG Scientific Library Services and Information Systems (LIS). 2021 [viewed 19 January 2024]. Deutsche Forschungsgemeinschaft. https://doi.org/10.5281/zenodo.5937994. Available from: https://www.dfg.de/resource/blob/174924/d99b797724796bc1a137fe3d6858f326/datentracking-papier-en-data.pdf

DAVIS, W. AI companies have all kinds of arguments against paying for copyrighted content [online]. 2023 [viewed 19 January 2024]. The Verge. Available from: https://www.theverge.com/2023/11/4/23946353/generative-ai-copyright-training-data-openai-microsoft-google-meta-stabilityai

Digital Science acquires AI service Writefull [online]. Research Information. 2023 [viewed 19 January 2024]. Available from: https://www.researchinformation.info/news/digital-science-acquires-ai-service-writefull?utm_campaign=RI%20Newsline%2028-11-23&utm_content=https%3A%2F%2F

ESPOSITO, J. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/07/12/who-is-going-to-make-money-from-artificial-intelligence-in-scholarly-communications/

GEMINI [online]. Clarke & Esposito. 2023 [viewed 19 January 2024]. Available from: https://www.ce-strategy.com/the-brief/gemini/

GEMMA, C. How ChatGPT and other AI tools could disrupt scientific publishing. Nature [online]. 2023, vol. 622, no. 7982, pp. 234-236 [viewed 19 January 2024]. https://doi.org/10.1038/d41586-023-03144-w. Available from: https://www.nature.com/articles/d41586-023-03144-w

GENDRON, Y., ANDREW, J. and Cooper, C. The perils of artificial intelligence in academic publishing. Critical Perspectives on Accounting [online]. 2022, vol. 87, pp. 102411 [viewed 19 January 2024]. https://doi.org/10.1016/j.cpa.2021.102411. Available from: https://www.sciencedirect.com/science/article/abs/pii/S1045235421001301?via%3Dihub

HARDINGES, J., SIMPERL, E. and SHADBOLT, N. We Must Fix the Lack of Transparency Around the Data Used to Train Foundation Models. Harvard Data Science Review [online]. 2023 [viewed 19 January 2024]. https://doi.org/10.1162/99608f92.a50ec6e6. Available from: https://hdsr.mitpress.mit.edu/pub/xau9dza3/release/1

KAK, A., WEST, S.M. and WHITTAKER, M. Make no mistake—AI is owned by Big Tech [online]. MIT Technology Review. 2023 [viewed 19 January 2024]. Available from: https://www.technologyreview.com/2023/12/05/1084393/make-no-mistake-ai-is-owned-by-big-tech/

KAUFMAN, R. Some Thoughts on Five Pending AI Litigations — Avoiding Squirrels and Other AI Distraction [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/03/07/some-thoughts-on-five-pending-ai-litigations-avoiding-squirrels-and-other-ai-distractions/

KAUFMAN, R. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/11/28/the-united-states-copyright-office-notice-of-inquiring-on-ai-a-quick-take/

KNECHT, S. Dutch open science deal primarily benefits Elsevier [online]. ScienceGuide. 2020 [viewed 19 January 2024]. https://www.scienceguide.nl/2020/06/open-science-deal-benefits-elsevier/

LAMDAN, S. Data cartels: The companies that control and monopolize our information. Stanford University Press, 2022. Available from: https://www.sup.org/books/title/?id=33205

LAWTON, G. Elsevier sees promise in small language models and graph data [online]. Diginomica. 2023 [viewed 19 January 2024]. Available from: https://diginomica.com/reed-elsevier-sees-promise-small-language-models-and-graph-data

LLC, OAI CORPORATION, LLC, and OPENAI HOLDINGS, LLC [online]. The New York Times. 2023 [viewed 19 January 2024]. https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

LO, K., et al. S2ORC: The Semantic Scholar Open Research Corpus. In: Annual Meeting of the Association for Computational Linguistics, Toronto, Canadá, 2023 [viewed 19 January 2024]. https://doi.org/10.18653/V1%2F2020.ACL-MAIN.447. Available from: https://www.semanticscholar.org/paper/S2ORC%3A-The-Semantic-Scholar-Open-Research-Corpus-Lo-Wang/5c5751d45e298cea054f32b392c12c61027d2fe7

MA, L. The Platformisation of Scholarly Information and How to Figh. LIBER Quarterly: The Journal of the Association of European Research Libraries [online]. 2023, vol. 33, no. 1, pp. 1-20 [viewed 19 January 2024]. https://doi.org/10.53377/lq.13561. Available from: https://liberquarterly.eu/article/view/13561

MATEI, S.A. An academic ChatGPT needs a better schooling [online]. Times Higher Education, 2023 [viewed 19 January 2024]. Available from: https://www.timeshighereducation.com/blog/academic-chatgpt-needs-better-schooling

MERTON, R.K. The Matthew Effect in Science: The reward and communication systems of science are considered. Science [online]. 1968, vol. 159, no. 3810, pp. 56-63 [viewed 19 January 2024]. https://doi.org/10.1126/science.159.3810.56. Available from: https://www.science.org/doi/10.1126/science.159.3810.56

MUELLER, T. Elsevier introduces authoritative scientific Datasets to fuel innovation and business-critical decisions in life sciences, chemicals and other research-intensive industries [online]. Elsevier. 2023 [viewed 19 January 2024]. https://www.elsevier.com/about/press-releases/elsevier-introduces-authoritative-scientific-datasets-to-fuel-innovation-and

NICHOLSON, J.M., et al. A smart citation index that displays the context of citations and classifies their intent using deep learning. Quantitative Science Studies [online]. 2021, vol. 2, no. 3, pp. 882-898 [viewed 19 January 2024]. https://doi.org/10.1162/qss_a_00146. Available from: https://direct.mit.edu/qss/article/2/3/882/102990/scite-A-smart-citation-index-that-displays-the

NOORDEN, R.V. ChatGPT-like AIs are coming to major science search engines. Nature [online]. 2023, vol. 620, no. 7973, pp. 258 [viewed 19 January 2024]. https://doi.org/10.1038/d41586-023-02470-3. Available from: https://www.nature.com/articles/d41586-023-02470-3

POOLEY, J. Surveillance Publishing [online]. Elephant in the lab, 2020 [viewed 19 January 2024]. Available from: https://elephantinthelab.org/surveillance-publishing/

POWERS, M.P. Generative AI Meets Scientific Publishing [online]. Optics & Photonics News [online]. 2023, vol. 34 [viewed 19 January 2024]. Available from: https://www.optica-opn.org/home/articles/volume_34/october_2023/features/generative_ai_meets_scientific_publishing/

PRIDE, D. CORE-GPT: Combining Open Access research and AI for credible, trustworthy question answering [online]. The CORE blog, 2023 [viewed 19 January 2024]. Available from: https://blog.core.ac.uk/2023/03/17/core-gpt-combining-open-access-research-and-ai-for-credible-trustworthy-question-answering/

Research Solutions announces acquisition of scite [online]. AI-TechPark. 2023 [viewed 19 January 2024]. Available from: https://ai-techpark.com/research-solutions-announces-acquisition-of-scite/

ROSSITER, M.W. The Matthew Matilda Effect in Science. Social studies of science [online]. 1993, vol. 23, no. 2, pp. 325-341 [viewed 19 January 2024]. https://doi.org/10.1177/030631293023002004. Available from: https://journals.sagepub.com/doi/abs/10.1177/030631293023002004

SIEMS, R. When your journal reads you [online]. Elephant in the lab, 2021 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.4683778. Available from: https://elephantinthelab.org/when-your-journal-reads-you/

SPARC Report Urges Action to Address Concerns with ScienceDirect Data Privacy Practices [online]. SPARC. 2023 [viewed 19 January 2024]. Available from: https://sparcopen.org/news/2023/sparc-report-urges-action-to-address-concerns-with-sciencedirect-data-privacy-practices/

Springer Nature expands its AI capability with acquisition of Slimmer AI’s Science division [online]. Springer Nature Group. 2023 [viewed 19 January 2024]. Available from: https://group.springernature.com/gp/group/media/press-releases/acquisition-slimmer-ai-science-division/26215608

STAIMAN, A. Will Building LLMs Become the New Revenue Driver for Academic Publishing? [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/08/08/will-building-llms-become-the-new-revenue-driver-for-academic-publishing/

The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work [online]. The New York Times. 2023 [viewed 19 January 2024]. Available from: https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

WIDDER, D.G., WEST, S. and WHITTAKER, M. Open (For Business): Big Tech, Concentrated Power, and the Political Economy of Open AI [online]. SSRN Papers. 2023 [viewed 19 January 2024]. Available from: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4543807

WILLIAMS, T. Publishers seek protection from AI mining of academic research [online]. Times Higher Education. 2023 [viewed 19 January 2024]. Available from: https://www.timeshighereducation.com/news/publishers-seek-protection-ai-mining-academic-research

YOOSE, B. and SHOCKEY, N. Navigating Risk in Vendor Data Privacy Practices: An Analysis of Elsevier’s ScienceDirect [online]. Zenodo. 2023 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.10078610. Available from: https://zenodo.org/doi/10.5281/zenodo.10078609

ZHAVORONKOV, A. The Unexpected Winners Of The ChatGPT Generative AI Revolution [online]. Forbes. 2023 [viewed 19 January 2024]. Available from: https://www.forbes.com/sites/alexzhavoronkov/2023/02/23/the-unexpected-winners-of-the-chatgpt-generative-ai-revolution/?sh=5acc971212b0&ref=lorcandempsey.net

ZUBOFF, S. The Age of Surveillance Capitalism. PublicAffairs, 2019. Available from: https://www.hachettebookgroup.com/titles/shoshana-zuboff/the-age-of-surveillance-capitalism/9781610395694/?lens=publicaffairs

Enlaces externos

AI21 Labs: https://www.ai21.com/

CC BY 4.0 Deed | Creative Commons: https://creativecommons.org/licenses/by/4.0/

Consensus: https://consensus.app/home/about-us/

CORE: https://core.ac.uk/about

Curie: https://www.aje.com/curie/

Dimensions AI Assistant: https://www.dimensions.ai/discover-dimensions-ai-assistant/

Fair Use – Wikipedia: https://en.wikipedia.org/wiki/Fair_use

Imagetwin: https://imagetwin.ai/

iris.ai: https://iris.ai/

Jenni: https://jenni.ai/

Keenious: https://keenious.com/

Ought: https://ought.org/elicit

Petal: https://www.petal.org/

Scholarcy: https://www.scholarcy.com/

SciSummary: https://scisummary.com/

scite: https://scite.ai/

Scopus AI: https://www.elsevier.com/products/scopus/scopus-ai

Semantic Scholar | Seemantic Reeader: https://www.semanticscholar.org/product/semantic-reader

Semantic Scholar: https://www.semanticscholar.org/

Slimmer AI: https://www.slimmer.ai/

Stop Tracking Science: https://stoptrackingscience.eu/

The Horizons Series – The Case Library & Geyer Center for Information Technology Colloquiym Series @ Colgate University: https://jfinnell.colgate.domains/horizons/

Writefull: https://www.writefull.com/

Artículo original en inglés

Large Language Publishing

Traducido del original en inglés por Ernesto Spinak.

Posts relacionados:

Como citar este post [ISO 690/2010]:

POOLEY, J. Publicación en Large Language Model (LLM) [Publicado originalmente en el blog Upstream en enero/2024] [online]. SciELO en Perspectiva, 2024 [viewed ]. Available from: https://blog.scielo.org/es/2024/01/19/publicacion-en-llm/