Publicação em Large Language Model (LLM) [Publicado originalmente no blog Upstream em janeiro/2024]

Por Jeff Pooley

Fotografia sobreposta de vários livros com as páginas dobradas em formato de avião sobre um fundo infinito preto.

O New York Times iniciou o ano novo com uma ação judicial contra a OpenAI e a Microsoft. O jornal cobriu o processo, apropriadamente, como uma importante notícia de negócios. De acordo com o processo, a OpenAI e sua patrocinadora, a Microsoft, roubaram “milhões de artigos de notícias, investigações aprofundadas, artigos de opinião, resenhas, guias de instruções” e muito mais, protegidos por direitos autorais do The Times – tudo para treinar os Large Language Models (LLMs) da OpenAI. O Times entrou com a ação para impedir que as empresas de tecnologia “aproveitem” o jornalismo “excepcionalmente valioso” do diário.

A OpenAI e a Microsoft citaram, evidentemente, o uso legítimo para justificar seus empréstimos sem autorização. Em 70 páginas amargas, os advogados do Times passaram por todos os quatro fatores que os juízes dos EUA consideram para o uso legítimo. O resumo também aponta para danos à reputação – de respostas inventadas que o ChatGPT ou o Bing Chat atribuem ao Times: “Em inglês claro, é desinformação”.

Não há dúvida de que os advogados da Elsevier e de outros gigantes da publicação acadêmica estão lendo atentamente o processo do Times. Eles perceberão um motivo principal: As matérias dispendiosas do jornal produzem conhecimento confiável, que, exceto por esta fonte, é escasso. Em um “ecossistema de informação danificado […] repleto de conteúdo não confiável”, o jornalismo do Times é um “conjunto de dados excepcionalmente valioso” para o treinamento de inteligência artificial (IA), afirma o documento. Outras organizações de notícias têm a mesma opinião; algumas assinaram acordos de licenciamento, enquanto outras estão negociando com a OpenAI e seus pares. Não haverá mais gratuidade.

É muito provável que os grandes publishers acadêmicos concordem. E eles controlam outro corpus de conhecimento, ciência e estudos acadêmicos verificados. Portanto, é quase certo que as negociações de licenciamento estejam em andamento, com ameaças e ações judiciais certamente preparadas. Ao mesmo tempo, os publishers comerciais estão criando seus próprios produtos de IA. No ano decorrido desde o ingresso ostensivo do ChatGPT, pelo menos três dos cinco grandes publishers acadêmicos, além da Clarivate, anunciaram ferramentas e recursos desenvolvidos por Large Language Models (LLMs). A elas se juntam dezenas de startups apoiadas por capital de risco – que serão alvos de aquisição, todas elas – e prometem um impulso da IA em todo o fluxo de trabalho acadêmico, da pesquisa bibliográfica à redação de resumos e editoração de manuscritos.

Assim, as duas principais fontes de conhecimento confiável, a ciência e o jornalismo, estão prontas para extrair dinheiro de proteção – para explorar seus vastos conjuntos de textos validados como “dados para treinamento”. Mas há uma diferença fundamental entre as notícias e a ciência: Os salários dos jornalistas e o custo das reportagens são cobertos pelas empresas. O mesmo não acontece com a publicação acadêmica: os acadêmicos, evidentemente, escrevem e revisam gratuitamente, e grande parte de nossa pesquisa é financiada pelo contribuinte. O processo do Times está repleto de reclamações sobre o dispendioso negócio do jornalismo. Publishers como Taylor & Francis e Springer Nature não terão este argumento para apresentar. É difícil denunciar gratuidade quando se trata de seu próprio modelo de negócios.

Supervisão de Publicação, Edição LLM

A febre do ciclo de propaganda da IA chegou à publicação acadêmica. A adoção intensiva da IA pelo setor – ainda que principalmente aspiracional – deve ser lida como a última parcela de uma campanha em curso.¹ Liderados pela Elsevier, os publishers comerciais têm colocado, há cerca de uma década, outro negócio em camadas sobre suas herdadas operações de publicação. Este negócio é a mineração e o processamento de artigos e comportamentos de acadêmicos em produtos de prognóstico, vendidos de volta para universidades e agências de pesquisa. A Elsevier, por exemplo, vende um software de painel de controle, Pure, para agências de avaliação de universidades – um software que atribui a cada um dos pesquisadores da instituição um Fingerprint® de palavras-chave ponderadas. Os dados subjacentes vêm da Scopus (Elsevier), a base de dados de resumos e citações de propriedade da empresa. Assim, o pesquisador é o produto: Seus artigos e referências alimentam Scopus e Pure, que são vendidos de volta para a universidade empregadora. Esta mesma universidade, é claro, já desembolsa dólares de assinaturas e APCs (article processing charges) para a Elsevier – os quais, em uma cruel ironia, financiam a própria explosão de aquisições que transformou a empresa em um publisher completo.

A Elsevier e as outros grandes publishers são, para usar a expressão de Sarah Lamdan, cartéis de dados. Denominei este esforço para extrair lucro do comportamento dos pesquisadores de publicação de vigilância – por analogia à noção de Shoshana Zuboff de capitalismo de vigilância, em que empresas como Google e Meta empacotam dados de usuários para vender aos anunciantes. A principal estratégia de negócios é a mesma para o Vale do Silício e para a Elsevier: extrair dados de comportamento para alimentar modelos preditivos que, por sua vez, são refinados e vendidos aos consumidores. Em um caso, são publicações no Facebook e, no outro, resumos e citações, mas, de qualquer forma, o objetivo é extrair dinheiro dos subprodutos do comportamento (do consumidor ou pesquisador). Uma grande diferença entre as grandes empresas de tecnologia e os publishers é que o Google e outros atraem os usuários com serviços gratuitos como o Gmail: Se você não está pagando por ele, diz o ditado, então você é o produto. No caso da Elsevier, nós somos o produto e estamos pagando (muito) por ele.

A Elsevier e alguns outros grandes publishers já aproveitam seus dados acadêmicos para, por exemplo, atribuir palavras-chave de assuntos a pesquisadores e trabalhos. De fato, elas vêm usando a chamada IA há anos, incluindo variações das técnicas de aprendizado de máquina (machine learning, ML) que se destacaram nos últimos 15 anos. O que há de diferente na iminente obtenção de licenças por parte dos publishers e na onda de ferramentas anunciadas é, em uma palavra, o ChatGPT. É verdade que versões sucessivas de modelos enormes de “Large Language” o Google e de outras empresas têm sido usadas nos círculos comerciais e acadêmicos há anos. Mas o lançamento público do ChatGPT em novembro de 2022 mudou o jogo. Entre outras coisas, e quase da noite para o dia, o valor do conteúdo assumiu uma coloração diferente. Cada um dos modelos gigantes da “fundação”, incluindo a série GPT da OpenAI, é alimentado com uma quantidade prodigiosa de texto. O apetite por estes dados de treinamento não é saciado, mesmo que a legalidade da ingestão contínua seja uma questão aberta e litigiosa.

Os grandes publishers acham que tem em mãos uma mina de ouro. Não se trata apenas de suas pesquisa de texto completo com acesso pago, mas também das pilhas de outros dados que eles coletam dos pesquisadores em suas plataformas e produtos. Pelo menos em teoria, seu conteúdo proprietário é – ao contrário do show de horrores da Web aberta – verificado e vinculado. Com base nisso, observadores declararam que os publishers podem ser os “maiores vencedores” na revolução da IA generativa. Talvez. Mas, de qualquer forma, espere até que a Springer Nature, Taylor & Francis, Elsevier, Wiley e SAGE testem a teoria.

Papagaios alucinantes

Os modelos de linguagem realmente grandes, como os que estão sendo usados no ChatGPT e no Bard, são notoriamente fabulistas. Eles rotineiramente, e confiantemente, retornam o que o eufemismo do setor chama de “alucinações”. Alguns observadores esperam que o problema continue piorando, à medida que o material gerado por LLMs inunda a Internet. Os grandes modelos, com este receio, se alimentarão de sua própria prosa repleta de falsidades nas rodadas de treinamento subsequentes – um tipo de canibalismo de LLM que, com o tempo, poderia excluir qualquer parte da Web pré-LLM que fosse mais ou menos verdadeira.

Uma solução para o problema, com a obtenção de capital de risco e o impulso do ciclo de publicidade, é a volta para os chamados modelos de idiomas “pequenos”. A ideia é aplicar as mesmas técnicas de reconhecimento de padrões, mas em conjuntos de dados selecionados e específicos de um domínio. Uma vantagem dos modelos menores, de acordo com os proponentes, é sua capacidade de restringir os dados de treinamento ao que é conhecido e verificável. A premissa é que, com menos lixo entrando, haverá menos lixo saindo.

Portanto, não é de surpreender que o registro científico publicado tenha surgido, nas conversas do setor, como um aniquilador de alucinações especialmente promissor. Acredita-se que aqui se encontra um corpo de conhecimento controlado, isolado do Babelist gratuito da Internet. O que torna o corpus de pesquisa diferente é, bem, a avaliação por pares e a manutenção do controle editorial, juntamente com as convenções de citação e o suposto compromisso dos acadêmicos com uma cultura de crítica autocorretiva. Assim, o registro publicado é – entre os corpos de texto explorável – excepcionalmente confiável. Ou é isso que afirmam os evangelistas da linguagem pequena.

A Elsevier e seus pares oligopolistas são os protagonistas. Eles protegem (a vigilância se dá por acesso mediante pagamento) uma grande parte dos estudos publicados, grande parte dos quais não pode ser descartada. É verdade que uma proporção cada vez maior de sua produção total é de acesso aberto, porém uma grande parte deste material possui uma licença não comercial. Os acordos padrão de Acesso Aberto tendem a conceder aos publishers direitos gerais, portanto, eles têm uma reivindicação – embora contestada com base no uso legítimo pela OpenAI e similares – de exploração exclusiva. Até mesmo o saldo de trabalhos de acesso aberto que permitem a reutilização comercial é encurralado com o restante, em plataformas proprietárias como a ScienceDirect da Elsevier. Estas plataformas também rastreiam o comportamento de pesquisadores, como downloads e citações, que podem ser usados para ajustar os resultados de seus modelos. Estes modelos poderiam, em teoria, ser alimentados por plataformas bibliográficas proprietárias, como a Web of Science da Clarivate, a Scopus da Elsevier e a Dimensions da Digital Science (de propriedade da empresa controladora da Springer Nature).

“A Maior Coleção do Mundo”

Uma área em que vários grandes publishers já estão entrando é o resumo baseado na busca. A Elsevier está testando o Scopus AI, com previsão de lançamento para o início de 2024. Os pesquisadores digitam perguntas em linguagem natural e recebem um resumo, com algumas sugestões de perguntas de acompanhamento e referências – que abrem uma visualização do ScienceDirect na barra lateral. Os resultados da Scopus AI também incluem um “Mapa de Conceitos” – uma árvore expansível baseada em tópicos, supostamente alimentada pelas palavras-chave da empresa Fingerprint®.

A ferramenta está vasculhando seus títulos e resumos do Scopus – a partir de 2018 – e, em seguida, alimentando os 10 principais resultados em um modelo GPT da OpenAI para resumo. A Elsevier não é tímida em relação à sua vantagem de armazenamento de dados: O Scopus AI foi “desenvolvido com base na maior coleção do mundo de literatura acadêmica confiável e avaliada pelos pares”, afirma um ostensivo vídeo promocional.

A Springer Nature e Clarivate também estão participando do programa de resumo de pesquisa. A Dimensions, concorrente da Scopus, irmã corporativa da Springer Nature, tem um Assistente de IA Dimensions em testes. Assim como o Scopus AI, a ferramenta Dimensions está recuperando um pequeno número de resumos com base na pesquisa de conversação, recorrendo a modelos da OpenAI e do Google para os resumos.

Enquanto isso, a Clarivate, que é proprietária da Web of Science e da ProQuest, fechou um acordo com a AI21 Labs, uma startup israelense de LLM (cujo slogan é: “Quando as máquinas se tornam parceiras de pensamento”). Usando o “conteúdo confiável da Clarivate como base”, a AI21 promete usar seus modelos para gerar “respostas e serviços contextuais de alta qualidade”, com o que ela chama francamente de “os montes de conteúdo e dados da Clarivate”.

As grandes empresas estarão competindo com um grupo estável de startups apoiadas por capital de risco, incluindo Ought ( “Ampliar o bom raciocínio”), iris.ai (“Espaço de trabalho do pesquisador), SciSummary (“Use a IA para resumir artigos científicos em segundos”), Petal (“Converse com seus documentos”), Jenni (“Melhore seu próximo trabalho de pesquisa”), scholarcy (“O resumidor de artigos baseado em IA”), Imagetwin (“Aumente a qualidade da ciência”), keenious (“Encontre pesquisas relevantes para qualquer documento!” ou “Find research relevant to any document!”), and Consensus (“Mecanismo de busca de IA para pesquisa” ou “AI Search Engine for Research”).

Uma questão em aberto é se as startups podem competir com os grandes publishers; muitos estão usando a base de dados de acesso aberto Semantic Scholar, que exclui o texto completo de artigos restritos a pagamento. Eles obtiveram muito apoio de capital de risco, mas se o setor de IA mais amplo servir de exemplo, as startups enfrentarão uma escalada difícil para se manter independentes. A IA comercial, afinal de contas, é dominada por um punhado de corporações gigantes dos EUA e da China, quase todas empresas de tecnologia de grande porte. O setor tem poderosas economias de escala, principalmente porque a criação de modelos exige vastos recursos financeiros e humanos

Os grandes publishers podem muito bem se encontrar em uma posição semelhante. Os estoques de artigos de texto completo e outros dados de propriedade privada das empresas são uma vantagem integrada. Suas margens astronômicas nos negócios legados de publicação por assinatura e APC significam que eles têm o capital disponível para investir e adquirir. A farra de aquisições da Elsevier, que durou uma década, foi, da mesma forma, financiada por seus ganhos lucrativos. Há todos os motivos para esperar que a empresa financie seus dispendiosos investimentos em LLM com o mesmo excedente; é provável que os pares da Elsevier sigam o mesmo caminho. Assim, as universidades e os contribuintes estão servindo, na verdade, como um fundo de capital para produtos de IA que, por sua vez, serão vendidos de volta para nós. As startups independentes podem muito bem ser adquiridas ao longo do caminho. Os próprios publishers gigantes podem ser alvos de aquisição para as empresas ainda maiores do Vale do Silício, ávidas por dados para treinamento – como Avi Staiman recentemente observou no Scholarly Kitchen.²

A festa das aquisições já teve início. Em outubro, a Springer Nature adquiriu a divisão de Ciências da Slimmer AI, um “estúdio de risco de IA” holandês com o qual o publisher tem trabalhado desde 2015 em ferramentas de avaliação por pares e detecção de plágio. Enquanto isso, a Digital Science acaba de comprar a Writefull, que produz um assistente de redação acadêmica (para se juntar ao Curie, recentemente anunciado pela empresa-irmã corporativa Springer Nature). A Digital Science apresentou a aquisição como um modelo de linguagem reduzida (small-language model): “Embora o foco mais amplo esteja atualmente nos LLMs”, disse um executivo da empresa no comunicado à imprensa,³ “os modelos pequenos e especializados da Writefull oferecem mais flexibilidade, a um custo menor, com métricas auditáveis”. A Research Solutions, uma empresa de Nevada que vende acesso ao conteúdo pago das grandes publishers comerciais para corporações, comprou recentemente a scite, uma startup cuja oferta inovadora – contextos de citações – foi reempacotada como “ChatGPT para a ciência”

Uso legítimo?

Como sugere o processo do Times, há um grande ponto de interrogação legal pairando sobre as perspectivas de IA dos grandes publishers. A principal questão que está sendo discutida nos tribunais é o uso legítimo: Podem as empresas como a OpenAI usar conteúdo protegido por direitos autorais em seus modelos, sem permissão ou compensação? As empresas de tecnologia do Vale do Silício acham que sim; elas são recém-convertidas ao maximalismo do uso legítimo, conforme revelado por seus comentários públicos apresentados ao Escritório de Direitos Autorais dos EUA (US Copyright Office). A “mensagem geral” das empresas, conforme relatou o The Verge em um resumo,⁴ é que elas “não acreditam que deveriam ter que pagar para treinar modelos de IA em trabalhos protegidos por direitos autorais”. Artistas e outros criadores de conteúdo discordaram, entrando com várias ações judiciais de alto nível.

Os publishers ainda não entraram com seus próprios processos, mas certamente estão observando os casos com atenção. A Wiley, por exemplo, disse à Nature⁵ que estava “monitorando de perto os relatórios do setor e os litígios que alegam que os modelos de IA generativa estão coletando material protegido para fins de treinamento, desconsiderando quaisquer restrições existentes sobre esta informação”. A empresa solicitou auditorias e supervisão regulatória dos modelos de IA, para abordar o “potencial de uso não autorizado de conteúdo restrito como entrada para o treinamento de modelos”. A Elsevier, por sua vez, proibiu o uso de “nosso conteúdo e dados” para treinamento; sua empresa-irmã LexisNexis, da mesma forma, enviou recentemente um e-mail aos consumidores⁶ para “lembrá-los” de que é proibido alimentar com conteúdo “grandes modelos de linguagem e IA generativa”. O CCC (conhecido como Copyright Clearance Center), em seus próprios comentários ao Escritório de Direitos Autorais dos EUA⁷ (US Copyright Office), adotou uma postura previsivelmente firme sobre a questão:

Certamente há suficiente material protegido por direitos autorais disponível sob licença para criar uma IA confiável, funcional e fidedigna. O fato de um desenvolvedor querer usar “tudo” não significa que ele deva fazer isso, que esteja habilitado a fazê-lo ou que tenha o direito de fazê-lo. Os governos e os tribunais também não devem distorcer ou modificar a lei para acomodá-los.⁷

O CCC, com fins lucrativos, é o principal órgão de licenciamento e permissão do setor de publicação científica. As grandes empresas de tecnologia e os gigantes da publicação comercial já estão manobrando para se posicionar. Como destacou Joseph Esposito [em um post recente no Scholarly Kitchen],⁸ um observador atento de publicações acadêmicas: “os publishers científicos, em particular, podem ter um papel especial e remunerado a desempenhar aqui.”

Uma consequência de curto prazo pode ser uma mudança na abordagem dos grandes publishers em relação ao acesso aberto. As empresas já estão atualizando suas licenças e termos para proibir o treinamento comercial de IA – para qualquer pessoa, exceto elas próprias, é claro. As empresas também poderiam se afastar completamente do acesso aberto para manter uma parcela maior de conteúdo exclusivo para mineração. Esposito explicitou [seu] argumento no post ao Scholarly Kitchen: “O fato lamentável da questão é que o movimento de acesso aberto e as pessoas e organizações que o apoiam foram cooptados pelo mundo da tecnologia à medida que ele constrói IA treinada em conteúdo.” Os publishers precisam de “mais proteção de direitos autorais, não menos”,⁸ acrescentou. A empresa de consultoria de Esposito, em sua última newsletter,⁹ chamou a licença liberal Creative Commons BY de “mecanismo de transferência de valor de publishers científicos e acadêmicos para as empresas de tecnologia mais ricas do mundo.” Talvez, mas eu gostaria de esclarecer o ponto: A publicação acadêmica comercial é um mecanismo de transferência de valores de acadêmicos, contribuintes e universidades para as empresas mais lucrativas do mundo.

O efeito Mateus em IA

Há uma centena de motivos para nos preocuparmos com o fato de a Elsevier extrair nossos estudos para maximizar seus lucros. Quero me deter no que é, possivelmente, o mais importante: os efeitos potenciais sobre o próprio conhecimento. No cerne destas ferramentas – incluindo uma previsível avalanche de produtos ainda não anunciados – há uma série de verbos: emergir, classificar, resumir e recomendar. O objeto de cada verbo somos nós – nossa pesquisa e nosso comportamento. O que está em jogo é o tipo de conhecimento que emergem dos modelos e de quem é o conhecimento.

Os modelos de IA estão prontos para atuar como árbitros do conhecimento, escolhendo vencedores e perdedores de acordo com o que eles tornam visível. Há dois problemas grandes e interligados nesta função: Os modelos são treinados com base no passado e sua lógica de filtragem é inescrutável. Como resultado, eles podem introduzir os muitos vieses que marcam a história do conhecimento em torno de gênero, geografia e outras formas de divergência. Neste contexto, é útil reviver um conceito antigo da sociologia da ciência. De acordo com o Efeito Mateus – denominado por Robert Merton décadas atrás – acadêmicos proeminentes e bem citados tendem a receber ainda mais destaque e citações. O outro lado é que os acadêmicos menos citados tendem a cair na obscuridade com o tempo. (“Porque a todo aquele que tem, mais lhe será dado, e terá em abundância; mas ao que não tem, até o que tem lhe será tirado” – Mateus 25:29). Esta dinâmica de vantagem cumulativa serviu, na prática, para ampliar as desigualdades padronizadas do sistema de conhecimento – por exemplo, no caso do gênero e dos estudos acadêmicos do século XX, apropriadamente chamado de Efeito Matilda por Margaret Rossiter.

A implantação de modelos de IA na ciência, especialmente os proprietários, pode produzir um efeito Mateus na escala do Scopus, e sem nenhum registro em papel. O problema é análogo ao bem documentado contrabando de preconceitos com os modelos generativos existentes; as ferramentas de imagem treinadas, por exemplo, em fotos majoritariamente de pessoas brancas e masculinas reproduzem a distorção em seus resultados gerados por estímulos. Com o nosso conhecimento carregado de preconceitos na forma de dados de treinamento, os modelos acadêmicos podem gerar resultados que, na verdade, aumentam a desigualdade. O pior é que não saberemos realmente, devido ao caráter de caixa preta dos modelos. Assim, as ferramentas podem agir como máquinas de lavar – abstrações que apagam o contexto e disfarçam seu “raciocínio” probabilístico. Os preconceitos existentes, como a propensão dos acadêmicos do sexo masculino para a autocitação, podem ganhar uma nova camada de legitimidade algorítmica. Ou considere a dinâmica centro-periferia ao longo das linhas Norte-Sul e de língua inglesa nativa: As lacunas que podem ser atribuídas à história geopolítica, incluindo o legado do colonialismo europeu, podem ser enterradas ainda mais profundamente. Em resumo, os modelos poderiam servir como multiplicadores de privilégios.

Os modelos de IA não estão desaparecendo, mas devemos exigir que – na medida do possível – as ferramentas e os modelos estejam sujeitos a escrutínio e estudo. Isso significa excluir produtos proprietários, a menos que possam ser abertos por lei ou regulamentação. Enquanto isso, devemos trazer os modelos internos para o âmbito acadêmico, usando coleções alinhadas à missão, como a CORE da Open University e a Semantic Scholar do Allen Institute. Os esforços liderados pela academia para criar modelos e ferramentas sem fins lucrativos devem ser transparentes, explicáveis e auditáveis.

Parar o rastreamento da ciência

Estes são os primeiros dias. A insegurança jurídica, o vaporware,¹⁰ a prosa sem fôlego de relatório anual: Tudo isso aponta para a aspiração e a prospecção de C-suite.¹¹ Ainda não estamos vivendo em um mundo de modelos de publishers em linguagem pequena (small-language models), treinados em nosso trabalho e comportamento.

Ainda assim, estou convencido de que os cinco grandes publishers, além da Clarivate, farão todos os esforços para aumentar suas margens com novas receitas de IA. Meu palpite é que eles desenvolverão e adquirirão um portfólio de produtos para cima, para baixo e ao redor do ciclo de vida da pesquisa, com base no modelo full-stack¹² existente da Elsevier. Afinal de contas – e dependendo do que entendemos por IA – os publishers comerciais vêm lançando produtos de IA há anos. Todos os sinais sugerem que elas aumentarão o ritmo, principalmente com a busca por modelos de linguagem no estilo GPT. Eles venderão seus próprios produtos para nós e – eu prevejo – licenciarão nossos artigos para os modelos das grandes fundações, por decisão judicial.

Portanto, é uma tarefa urgente reagir agora, e não esperar até que os modelos sejam treinados e implantados. O que é necessário é uma campanha completa, alavancando o ativismo e a pressão legislativa, para desafiar a agenda extrativista dos publishers comerciais. Uma etapa crucial de enquadramento é tratar a iminente avalanche de IA como contínua e como uma extensão da mutação em andamento dos publishers em empresas capitalistas de dados. A era dos publishers de vigilância foi simbolicamente iniciada em 2015, quando a Reed-Elsevier adotou seu “nome mais curto e moderno”, RELX Group, para marcar sua “transformação” de publisher em “empresa orientada por tecnologia, conteúdo e análise”. Eles cumpriram a promessa, explorando a nata comportamental dos acadêmicos com avidez produto por produto. A Clarivate e os colegas da Elsevier seguiram seu exemplo.

Portanto, a mudança para a IA é mais do mesmo, só que ainda mais. O coquetel de probabilidade, previsão e lucro dos publishers baseia-se no mesmo processo: extrair nossa erudição e nosso comportamento e, em seguida, vendê-los de volta para nós em forma de conglomerado. Os riscos são maiores, pois alguns publishers estão incorporados a conglomerados de análise de dados – RELX (Elsevier) e Informa (Taylor & Francis), juntamente com empresas adjacentes aos publishers, como Clarivate e Thomson Reuters. As empresas estão fazendo a polinização cruzada de seus negócios acadêmicos e de “soluções de risco”? A LexisNexis, da RELX, vendeu ferramentas de rastreamento facial e outras ferramentas de vigilância para a Alfândega e a Proteção de Fronteiras dos EUA no ano passado, conforme reportou recentemente o The Intercept.¹³ Como disse a SPARC (a aliança de bibliotecas) em seu relatório de novembro sobre a plataforma ScienceDirect da Elsevier: “Há pouco ou quase nada que impeça os fornecedores que coletam e rastreiam dados de usuários [de bibliotecas] de alimentar estes dados – seja em sua forma bruta ou agregada – em seus negócios de corretagem de dados.”¹⁴

Até o momento, a manipulação de dados por parte dos publishers não estimulou os acadêmicos a protestar. O principal motivo é que a maioria dos acadêmicos desconhece sem preocupações o rastreamento – o que não é surpresa, dada a ignorância dos acadêmicos, ocupados demais para se preocuparem com o próprio sistema de publicação. A comunidade de bibliotecas está muito mais sintonizada com a pilhagem não consentida, embora os bibliotecários – além do SPARC – não tenham se organizado para tratar do assunto. Houve notas esparsas de dissidência, incluindo uma petição Stop Tracking Science (Pare de rastrear a ciência) e um protesto de acadêmicos holandeses em um acordo de dados e publicação de 2020 com a Elsevier, em grande parte porque a empresa havia incluído seus produtos de previsão no acordo. Em 2022, a Fundação Nacional de Pesquisa Alemã, (Deutsche Forschungsgemeinschaft, DFG), divulgou seu próprio relatório e advertência: “industrialização do conhecimento por meio do rastreamento”,¹⁵ nas palavras do relatório. Críticas contundentes de Bjorn Brembs, Leslie Chan, Renke Siems, Lai Ma e Sarah Lamdan, entre outros, foram publicadas em intervalos regulares

Nada disso se traduziu em muita coisa, nem mesmo na conscientização do grande público acadêmico. Uma campanha coordenada de defesa e conscientização deve ser acompanhada de estudos aprofundados e de alta qualidade sobre a coleta de dados dos publishers – a exemplo do recente relatório da SPARC sobre o ScienceDirect.¹⁶ Qualquer esforço como este deve ser construído com base na premissa de que outro mundo de publicação acadêmica é possível. Nosso acordo predominante de custódia conjunta – para publishers com fins lucrativos e universidades sem fins lucrativos – é um desenvolvimento recente e reversível. Há muitos bons motivos para devolver a custódia à academia. O mais recente é impedir que nosso trabalho alimente os lucros de IA dos publishers.

Notas

1 O termo em si é ambíguo, embora agora seja inevitável. Por IA (inteligência artificial), estou me referindo principalmente ao conjunto de técnicas que agora são rotineiramente agrupadas sob o rótulo “aprendizado de máquina (machine learning, ML)”. Há uma ironia nesta captura linguística. Durante décadas após sua criação, em meados dos anos 50, a “inteligência artificial” foi usada para designar uma abordagem rival, baseada em regras e símbolos. Até cerca de 30 anos atrás, o que quase todo mundo hoje chama de IA foi excluído do clube. A história de como as redes neurais e outras técnicas de ML foram admitidas ainda não encontrou seu cronista. O que está claro é que uma queda acentuada nos financiamentos na década de 1980 (o chamado “inverno da IA”) fez com que o rival do aprendizado de máquina, antes excluído — seus sucessos preditivos exibidos nas décadas seguintes — se tornasse um auxílio muito atraente para reconquistar o dinheiro das doações. Este ensaio é baseado em uma palestra convidada para a série de colóquios Horizons da Colgate University em outubro de 2023.

2. STAIMAN, A. Will Building LLMs Become the New Revenue Driver for Academic Publishing? [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/08/08/will-building-llms-become-the-new-revenue-driver-for-academic-publishing/

3. Digital Science acquires AI service Writefull [online]. Research Information. 2023 [viewed 19 January 2024]. Available from: https://www.researchinformation.info/news/digital-science-acquires-ai-service-writefull

4. DAVIS, W. AI companies have all kinds of arguments against paying for copyrighted content [online]. 2023 [viewed 19 January 2024]. The Verge. Available from: https://www.theverge.com/2023/11/4/23946353/generative-ai-copyright-training-data-openai-microsoft-google-meta-stabilityai

5. GEMMA, C. How ChatGPT and other AI tools could disrupt scientific publishing. Nature [online]. 2023, vol. 622, no. 7982, pp. 234-236 [viewed 19 January 2024]. https://doi.org/10.1038/d41586-023-03144-w. Available from: https://www.nature.com/articles/d41586-023-03144-w

6. POWERS, M.P. Generative AI Meets Scientific Publishing [online]. Optics & Photonics News [online]. 2023, vol. 34 [viewed 19 January 2024]. Available from: https://www.optica-opn.org/home/articles/volume_34/october_2023/features/generative_ai_meets_scientific_publishing/

7. KAUFMAN, R. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/11/28/the-united-states-copyright-office-notice-of-inquiring-on-ai-a-quick-take/

8. ESPOSITO, J. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/07/12/who-is-going-to-make-money-from-artificial-intelligence-in-scholarly-communications/

9. GEMINI [online]. Clarke & Esposito. 2023 [viewed 19 January 2024]. Available from: https://www.ce-strategy.com/the-brief/gemini/
10. Nota da tradutora: vaporware é um novo software que foi anunciado ou comercializado, mas não foi produzido. Fonte: The Free Dictionary. Available from: https://www.thefreedictionary.com/vaporware

11. Nota da tradutora: C-suite, ou C-level, é um termo amplamente usado para descrever os escalões superiores dos executivos e gerentes seniores de uma empresa. O nome C-suite vem dos títulos dos principais executivos seniores, que tendem a começar com a letra C, de “chief” (chefe), como em CEO, CFO, CIO, COO. Fonte: Investopedia. Available from: https://www.investopedia.com/terms/c/c-suite.asp#

12. Nota da tradutora: O desenvolvimento full-stack refere-se ao desenvolvimento de software de aplicativo de ponta a ponta, incluindo o front-end e o back-end. O front-end consiste na interface do usuário, e o back-end cuida da lógica de negócios e dos fluxos de trabalho do aplicativo. Fonte: MongoDB. Available from: https://www.mongodb.com/languages/full-stack-development

13. BIDDLE, S. LexisNexis Sold Powerful Spy Tools to U.S. Customs and Border Protection [online]. The Intercept. 2023 [viewed 19 January 2024]. Available from: https://theintercept.com/2023/11/16/lexisnexis-cbp-surveillance-border/

14. YOOSE, B. and SHOCKEY, N. Navigating Risk in Vendor Data Privacy Practices: An Analysis of Elsevier’s ScienceDirect [online]. Zenodo. 2023 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.10078610. Available from: https://zenodo.org/doi/10.5281/zenodo.10078609

15. Data tracking in research: aggregation and use or sale of usage data by academic publishers [online]. DFG Scientific Library Services and Information Systems (LIS). 2021 [viewed 19 January 2024]. Deutsche Forschungsgemeinschaft. https://doi.org/10.5281/zenodo.5937994. Available from: https://www.dfg.de/resource/blob/174924/d99b797724796bc1a137fe3d6858f326/datentracking-papier-en-data.pdf

16. SPARC Report Urges Action to Address Concerns with ScienceDirect Data Privacy Practices [online]. SPARC. 2023 [viewed 19 January 2024]. Available from: https://sparcopen.org/news/2023/sparc-report-urges-action-to-address-concerns-with-sciencedirect-data-privacy-practices/

Referências

Addressing the Alarming Systems of Surveillance Built By Library Vendors [online]. SPARC. 2021 [viewed 19 January 2024]. Available from: https://sparcopen.org/news/2021/addressing-the-alarming-systems-of-surveillance-built-by-library-vendors/

Announcing AI2 OLMo, an Open Language Model Made by Scientists, for Scientists [online]. AI2 Blog, 2023 [viewed 19 January 2024]. Available from: https://blog.allenai.org/announcing-ai2-olmo-an-open-language-model-made-by-scientists-for-scientists-ab761e4e9b76

Annual Reports and Financial Statements 2015 [online]. Relx Group. 2015 [viewed 19 January 2024]. Available from: https://www.relx.com/~/media/Files/R/RELX-Group/documents/reports/annual-reports/2015-annual-report.pdf

BIDDLE, S. LexisNexis Sold Powerful Spy Tools to U.S. Customs and Border Protection [online]. The Intercept. 2023 [viewed 19 January 2024]. Available from: https://theintercept.com/2023/11/16/lexisnexis-cbp-surveillance-border/

BREMBS, B. Algorithmic Employment Decisions In Academia? [online]. Björn Brembs Blogs, 2023 [viewed 19 January 2024]. Available from: https://bjoern.brembs.net/2021/09/algorithmic-employment-decisions-in-academia/

BREWSTER, F. Big Tech Is Lobbying Hard to Keep Copyright Law Favorable to AI [online]. JACOBIN. 2023 [viewed 19 January 2024]. Available from: https://jacobin.com/2023/11/artificial-intelligence-big-tech-lobbying-copyright-infringement-regulation/

BRUELL, A. ChatGPT Creator OpenAI to Pay Politico Parent for Using Its Content [online]. The Wall Street Journal. 2023 [viewed 19 January 2024]. Available from: https://www.wsj.com/business/media/openai-to-pay-politico-parent-axel-springer-for-using-its-content-bdc33332

CHAN, L. Platform Capitalism and the Governance of Knowledge Infrastructure. In: Digital Initiative Symposium, San Diego, 2019 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.2656601. Available from: https://zenodo.org/records/2656601

Clarivate Announces Partnership with AI21 Labs as part of its Generative AI Strategy to Drive Growth [online]. Clarivate. 2023 [viewed 19 January 2024]. Available from: https://allenai.org/data/s2orc

Data tracking in research: aggregation and use or sale of usage data by academic publishers [online]. DFG Scientific Library Services and Information Systems (LIS). 2021 [viewed 19 January 2024]. Deutsche Forschungsgemeinschaft. https://doi.org/10.5281/zenodo.5937994. Available from: https://www.dfg.de/resource/blob/174924/d99b797724796bc1a137fe3d6858f326/datentracking-papier-en-data.pdf

DAVIS, W. AI companies have all kinds of arguments against paying for copyrighted content [online]. 2023 [viewed 19 January 2024]. The Verge. Available from: https://www.theverge.com/2023/11/4/23946353/generative-ai-copyright-training-data-openai-microsoft-google-meta-stabilityai

Digital Science acquires AI service Writefull [online]. Research Information. 2023 [viewed 19 January 2024]. Available from: https://www.researchinformation.info/news/digital-science-acquires-ai-service-writefull?utm_campaign=RI%20Newsline%2028-11-23&utm_content=https%3A%2F%2F

ESPOSITO, J. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/07/12/who-is-going-to-make-money-from-artificial-intelligence-in-scholarly-communications/

GEMINI [online]. Clarke & Esposito. 2023 [viewed 19 January 2024]. Available from: https://www.ce-strategy.com/the-brief/gemini/

GEMMA, C. How ChatGPT and other AI tools could disrupt scientific publishing. Nature [online]. 2023, vol. 622, no. 7982, pp. 234-236 [viewed 19 January 2024]. https://doi.org/10.1038/d41586-023-03144-w. Available from: https://www.nature.com/articles/d41586-023-03144-w

GENDRON, Y., ANDREW, J. and Cooper, C. The perils of artificial intelligence in academic publishing. Critical Perspectives on Accounting [online]. 2022, vol. 87, pp. 102411 [viewed 19 January 2024]. https://doi.org/10.1016/j.cpa.2021.102411. Available from: https://www.sciencedirect.com/science/article/abs/pii/S1045235421001301?via%3Dihub

HARDINGES, J., SIMPERL, E. and SHADBOLT, N. We Must Fix the Lack of Transparency Around the Data Used to Train Foundation Models. Harvard Data Science Review [online]. 2023 [viewed 19 January 2024]. https://doi.org/10.1162/99608f92.a50ec6e6. Available from: https://hdsr.mitpress.mit.edu/pub/xau9dza3/release/1

KAK, A., WEST, S.M. and WHITTAKER, M. Make no mistake—AI is owned by Big Tech [online]. MIT Technology Review. 2023 [viewed 19 January 2024]. Available from: https://www.technologyreview.com/2023/12/05/1084393/make-no-mistake-ai-is-owned-by-big-tech/

KAUFMAN, R. Some Thoughts on Five Pending AI Litigations — Avoiding Squirrels and Other AI Distraction [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/03/07/some-thoughts-on-five-pending-ai-litigations-avoiding-squirrels-and-other-ai-distractions/

KAUFMAN, R. The United States Copyright Office Notice of Inquiry on AI: A Quick Take [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/11/28/the-united-states-copyright-office-notice-of-inquiring-on-ai-a-quick-take/

KNECHT, S. Dutch open science deal primarily benefits Elsevier [online]. ScienceGuide. 2020 [viewed 19 January 2024]. https://www.scienceguide.nl/2020/06/open-science-deal-benefits-elsevier/

LAMDAN, S. Data cartels: The companies that control and monopolize our information. Stanford University Press, 2022. Available from: https://www.sup.org/books/title/?id=33205

LAWTON, G. Elsevier sees promise in small language models and graph data [online]. Diginomica. 2023 [viewed 19 January 2024]. Available from: https://diginomica.com/reed-elsevier-sees-promise-small-language-models-and-graph-data

LLC, OAI CORPORATION, LLC, and OPENAI HOLDINGS, LLC [online]. The New York Times. 2023 [viewed 19 January 2024]. https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

LO, K., et al. S2ORC: The Semantic Scholar Open Research Corpus. In: Annual Meeting of the Association for Computational Linguistics, Toronto, Canadá, 2023 [viewed 19 January 2024]. https://doi.org/10.18653/V1%2F2020.ACL-MAIN.447. Available from: https://www.semanticscholar.org/paper/S2ORC%3A-The-Semantic-Scholar-Open-Research-Corpus-Lo-Wang/5c5751d45e298cea054f32b392c12c61027d2fe7

MA, L. The Platformisation of Scholarly Information and How to Figh. LIBER Quarterly: The Journal of the Association of European Research Libraries [online]. 2023, vol. 33, no. 1, pp. 1-20 [viewed 19 January 2024]. https://doi.org/10.53377/lq.13561. Available from: https://liberquarterly.eu/article/view/13561

MATEI, S.A. An academic ChatGPT needs a better schooling [online]. Times Higher Education, 2023 [viewed 19 January 2024]. Available from: https://www.timeshighereducation.com/blog/academic-chatgpt-needs-better-schooling

MERTON, R.K. The Matthew Effect in Science: The reward and communication systems of science are considered. Science [online]. 1968, vol. 159, no. 3810, pp. 56-63 [viewed 19 January 2024]. https://doi.org/10.1126/science.159.3810.56. Available from: https://www.science.org/doi/10.1126/science.159.3810.56

MUELLER, T. Elsevier introduces authoritative scientific Datasets to fuel innovation and business-critical decisions in life sciences, chemicals and other research-intensive industries [online]. Elsevier. 2023 [viewed 19 January 2024]. https://www.elsevier.com/about/press-releases/elsevier-introduces-authoritative-scientific-datasets-to-fuel-innovation-and

NICHOLSON, J.M., et al. A smart citation index that displays the context of citations and classifies their intent using deep learning. Quantitative Science Studies [online]. 2021, vol. 2, no. 3, pp. 882-898 [viewed 19 January 2024]. https://doi.org/10.1162/qss_a_00146. Available from: https://direct.mit.edu/qss/article/2/3/882/102990/scite-A-smart-citation-index-that-displays-the

NOORDEN, R.V. ChatGPT-like AIs are coming to major science search engines. Nature [online]. 2023, vol. 620, no. 7973, pp. 258 [viewed 19 January 2024]. https://doi.org/10.1038/d41586-023-02470-3. Available from: https://www.nature.com/articles/d41586-023-02470-3

POOLEY, J. Surveillance Publishing [online]. Elephant in the lab, 2020 [viewed 19 January 2024]. Available from: https://elephantinthelab.org/surveillance-publishing/

POWERS, M.P. Generative AI Meets Scientific Publishing [online]. Optics & Photonics News [online]. 2023, vol. 34 [viewed 19 January 2024]. Available from: https://www.optica-opn.org/home/articles/volume_34/october_2023/features/generative_ai_meets_scientific_publishing/

PRIDE, D. CORE-GPT: Combining Open Access research and AI for credible, trustworthy question answering [online]. The CORE blog, 2023 [viewed 19 January 2024]. Available from: https://blog.core.ac.uk/2023/03/17/core-gpt-combining-open-access-research-and-ai-for-credible-trustworthy-question-answering/

Research Solutions announces acquisition of scite [online]. AI-TechPark. 2023 [viewed 19 January 2024]. Available from: https://ai-techpark.com/research-solutions-announces-acquisition-of-scite/

ROSSITER, M.W. The Matthew Matilda Effect in Science. Social studies of science [online]. 1993, vol. 23, no. 2, pp. 325-341 [viewed 19 January 2024]. https://doi.org/10.1177/030631293023002004. Available from: https://journals.sagepub.com/doi/abs/10.1177/030631293023002004

SIEMS, R. When your journal reads you [online]. Elephant in the lab, 2021 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.4683778. Available from: https://elephantinthelab.org/when-your-journal-reads-you/

SPARC Report Urges Action to Address Concerns with ScienceDirect Data Privacy Practices [online]. SPARC. 2023 [viewed 19 January 2024]. Available from: https://sparcopen.org/news/2023/sparc-report-urges-action-to-address-concerns-with-sciencedirect-data-privacy-practices/

Springer Nature expands its AI capability with acquisition of Slimmer AI’s Science division [online]. Springer Nature Group. 2023 [viewed 19 January 2024]. Available from: https://group.springernature.com/gp/group/media/press-releases/acquisition-slimmer-ai-science-division/26215608

STAIMAN, A. Will Building LLMs Become the New Revenue Driver for Academic Publishing? [online]. The Scholarly Kitchen, 2023 [viewed 19 January 2024]. Available from: https://scholarlykitchen.sspnet.org/2023/08/08/will-building-llms-become-the-new-revenue-driver-for-academic-publishing/

The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work [online]. The New York Times. 2023 [viewed 19 January 2024]. Available from: https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

WIDDER, D.G., WEST, S. and WHITTAKER, M. Open (For Business): Big Tech, Concentrated Power, and the Political Economy of Open AI [online]. SSRN Papers. 2023 [viewed 19 January 2024]. Available from: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4543807

WILLIAMS, T. Publishers seek protection from AI mining of academic research [online]. Times Higher Education. 2023 [viewed 19 January 2024]. Available from: https://www.timeshighereducation.com/news/publishers-seek-protection-ai-mining-academic-research

YOOSE, B. and SHOCKEY, N. Navigating Risk in Vendor Data Privacy Practices: An Analysis of Elsevier’s ScienceDirect [online]. Zenodo. 2023 [viewed 19 January 2024]. https://doi.org/10.5281/zenodo.10078610. Available from: https://zenodo.org/doi/10.5281/zenodo.10078609

ZHAVORONKOV, A. The Unexpected Winners Of The ChatGPT Generative AI Revolution [online]. Forbes. 2023 [viewed 19 January 2024]. Available from: https://www.forbes.com/sites/alexzhavoronkov/2023/02/23/the-unexpected-winners-of-the-chatgpt-generative-ai-revolution/?sh=5acc971212b0&ref=lorcandempsey.net

ZUBOFF, S. The Age of Surveillance Capitalism. PublicAffairs, 2019. Available from: https://www.hachettebookgroup.com/titles/shoshana-zuboff/the-age-of-surveillance-capitalism/9781610395694/?lens=publicaffairs

Links externos

AI21 Labs: https://www.ai21.com/

CC BY 4.0 Deed | Creative Commons: https://creativecommons.org/licenses/by/4.0/

Consensus: https://consensus.app/home/about-us/

CORE: https://core.ac.uk/about

Curie: https://www.aje.com/curie/

Dimensions AI Assistant: https://www.dimensions.ai/discover-dimensions-ai-assistant/

Fair Use – Wikipedia: https://en.wikipedia.org/wiki/Fair_use

Imagetwin: https://imagetwin.ai/

iris.ai: https://iris.ai/

Jenni: https://jenni.ai/

Keenious: https://keenious.com/

Ought: https://ought.org/elicit

Petal: https://www.petal.org/

Scholarcy: https://www.scholarcy.com/

SciSummary: https://scisummary.com/

scite: https://scite.ai/

Scopus AI: https://www.elsevier.com/products/scopus/scopus-ai

Semantic Scholar | Seemantic Reeader: https://www.semanticscholar.org/product/semantic-reader

Semantic Scholar: https://www.semanticscholar.org/

Slimmer AI: https://www.slimmer.ai/

Stop Tracking Science: https://stoptrackingscience.eu/

The Horizons Series – The Case Library & Geyer Center for Information Technology Colloquiym Series @ Colgate University: https://jfinnell.colgate.domains/horizons/

Writefull: https://www.writefull.com/

Artigo original em inglês

Large Language Publishing

Traduzido do original em inglês por Lilian Nassi-Calò.

Posts relacionados:

Como citar este post [ISO 690/2010]:

POOLEY, J. Publicação em Large Language Model (LLM) [Publicado originalmente no blog Upstream em janeiro/2024] [online]. SciELO em Perspectiva, 2024 [viewed ]. Available from: https://blog.scielo.org/blog/2024/01/19/publicacao-em-llm/