Como traduzir escrita acadêmica para podcasts usando IA generativa [Publicado originalmente no LSE Impact Blog em junho/2024]

Por Andy Tattersall

Imagem de uma obra de arte composta por várias letras lilás em uma formação que parece uma nuvem, gerada pelo Google DeepMind

Imagem: Google DeepMind.

Ao longo da última década, escrevi vários textos para o LSE Impact Blog e outras plataformas. Acredito que o blog é um meio vital para compartilhar novas pesquisas e ideias. Como peças autônomas ou companheiras de produções formais mais longas, os posts desempenham um papel importante no panorama da informação.

No entanto, existem limites inerentes ao texto e o desenvolvimento de novas ferramentas de inteligência artificial (IA) generativa tornou mais fácil a transição do texto para a fala. Portanto, eu queria ver se poderia combinar o blog com outra atividade favorita minha, o podcast.

Meu plano era dar nova vida a esse arquivo de artigos escritos, muitos dos quais permanecem relevantes e bem lidos. Claro, eu poderia gravar esses artigos como podcasts usando minha própria voz (tenho as habilidades e a tecnologia necessárias), mas eu queria explorar se a IA poderia criar formas mais simplificadas e acessíveis de podcast para acadêmicos.

A tecnologia de texto para fala está progredindo rapidamente e há um número crescente de ferramentas que podem ajudar na acessibilidade. Versões de áudio não são novidade, os audiolivros são bem estabelecidos e versões de áudio de artigos de pesquisa são algo que as editoras têm experimentado há algum tempo, embora geralmente com resultados mistos. Os podcasts ainda são considerados por muitos na academia como uma nova maneira de disseminar ideias e pesquisas, mas também existem há duas décadas. De acordo com um relatório da statista,1 o número de ouvintes de podcasts no Reino Unido continua crescendo, com uma estimativa de 21,2 milhões de ouvintes de podcasts em 2022. Então por que não (para criar uma nova palavra) blogcasts?

Como a maioria das novas tecnologias digitais, a adoção lenta de podcasts na academia se deve principalmente a barreiras relacionadas ao tempo, finanças, confiança e conhecimento. No entanto, com o apoio e treinamento adequados, qualquer pessoa pode fazer e compartilhar um podcast. Isso poderia ser um podcast básico e sem muitos recursos, embora ainda assim exija habilidades de planejamento, hospedagem e edição. Para muitos, a ansiedade em gravar (ou mesmo ouvir) sua própria voz pode ser desafiadora. Em última análise, o conteúdo deve valer o tempo do ouvinte, talvez não seja da qualidade da BBC, mas quanto melhor a apresentação e a qualidade do som, mais provável é que os ouvintes se envolvam.

Então, foi assim que surgiu meu projeto. Depois de obter permissão do LSE Impact Blog e do The Conversation para republicar meus artigos em um novo formato, criei uma nova conta de podcast no Spotify chamada Talking Threads. Embora haja muitas opções disponíveis no mercado, escolhi uma ferramenta chamada Augie, que se concentra principalmente na criação de vídeos e animações usando IA. Ela possui um recurso que permite adicionar texto, que pode ser usado para gerar um vídeo com uma narração de voz de IA com suas próprias palavras. Usei principalmente para exportar um arquivo de áudio, já que as escolhas de imagens da IA ainda são bem distantes de temas tão específicos.

Fiz uma introdução ao podcast usando minha própria voz e, em seguida, reformatei todos os meus antigos artigos para que o Augie tivesse uma melhor chance de ler o texto corretamente. Surpreendentemente, ele foi bom em pronunciar nomes, mas teve dificuldades com palavras compostas como “paywall“, que mudei para “pay wall“. O mesmo se aplicou a acrônimos como “API” e “DOI”, que mudei para “A P I” e “D O I”. Foi interessante ouvir o que eu havia escrito sendo lido de volta para mim de forma tão clara, mas também destacou algumas ocasiões em que precisei modificar o texto para que soasse melhor. Depois de resolver quaisquer problemas e ler o artigo modificado, o processo foi bastante simples.

O breve guia do Augie2 explica como adicionar texto para gerar seu áudio. Os passos são os seguintes: selecione “criar” e depois escolha “tenho um texto que quero transformar em vídeo”. Em seguida, cole seu roteiro e escolha uma voz e depois ouça a prévia. Uma vez satisfeito com a gravação, clique nos três pontos no botão de reprodução/prévia e selecione download. Isso irá baixar seu áudio como um arquivo mp3.

Uma consideração que tive que fazer foi a escolha da voz. O Augie tem algumas dezenas de vozes para escolher. A maioria delas é americana, assim como com geradores de imagem de IA, parece haver um viés para saídas dos Estados Unidos. Decidi, como um homem branco inglês, escolher vozes de homens brancos ingleses para os podcasts, já que inicialmente senti que deveriam representar o autor. Depois me ocorreu que audiolivros podem não ser lidos por alguém com o mesmo histórico do autor. Então, eu experimentei criando alguns com sotaques americano e australiano e uma voz feminina. Embora isso possa levantar outras questões sobre representação, se eu fosse fazer isso novamente do zero, certamente consideraria aumentar a variedade de vozes na mistura.

Minha abordagem para a adoção de tecnologia é impulsionada por dois fatores. Primeiramente, adoto tecnologia com base em razões pedagógicas através da lente da comunicação de pesquisa. Em segundo lugar, para explorar a novidade de novas tecnologias e suas possibilidades. Os podcasts podem pegar uma ideia, uma teoria e algo escrito e torná-los mais acessíveis. Isso naturalmente ajuda pessoas com deficiências visuais ou outras deficiências, mas também inclui pessoas que simplesmente querem uma pausa da tela do computador. Eles também são portáteis e oferecem uma pausa do bombardeio das palavras escritas no ambiente de trabalho. Enquanto um artigo de revista ou livro exige sua atenção total, o áudio também fornece uma forma mais ambiente de se envolver com ideias, enquanto as pessoas se deslocam ou fazem outras coisas.

O outro fator, novidade, de maneira alguma subestima a primeira razão. Como o teórico da comunicação Marshall McLuhan defendeu; “O meio é a mensagem” e explorar IA e áudio pode ser um catalisador para chamar a atenção para seu trabalho. Claro, assim como os podcasts em si, eles não são para todos e idealmente você gostaria de gravar seu próprio podcast usando sua própria voz. Isso certamente foi uma opção para mim, mas foi revigorante usar uma variedade de vozes. A qualidade e o tom delas são profissionais, elas foram capazes de pegar ironias e aplicar pausas nos lugares certos. Gravar a própria voz a partir do texto requer prática, caso contrário, pode soar tão robótico e entediante quanto uma voz gerada. Todos nós já experimentamos apresentações onde o palestrante leu páginas de texto literalmente para uma plateia e conseguiu perder a atenção dela depois dos primeiros minutos devido ao tom errado.

A IA não sofreu perceptivelmente do problema de parecer entediada com sua própria voz. Se você quer que outros se interessem por suas ideias e pesquisas, é fundamental que o narrador pareça envolvido com o texto que está lendo. Os podcasts produzidos por IA abrem outras possibilidades futuras para produzir versões em outros idiomas (desde que sejam devidamente revisadas). Podcasts de IA podem não ser para todos, mas oferecem uma solução para pessoas e grupos que não têm acesso a equipamentos de gravação ou que carecem de confiança. E caso você estivesse se perguntando, este post do blog foi 100% escrito por mim.

Você pode ouvir o blogcast de Andy, Talking Threads – Where AI Meets Impact. Você também pode encontrar todos seus posts no LSE Impact Blog aqui.

Notas

1. Podcasts in the UK – statistics & facts | statista: https://www.statista.com/topics/6908/podcasts-in-the-uk/#topicOverview

2. How to upload text to Augie: https://augxlabs.notion.site/How-to-upload-text-to-Augie-39c59367b3f34097b91495c537af3f00

Referências

TATTERSAL, A. Time, Finances, Confidence, Knowledge – Research communicators should be attentive to the resource inequalities inherent to academia [online]. LSE Impact Blog, 2021 [viewed 14 June 2024]. Available from: https://blogs.lse.ac.uk/impactofsocialsciences/2021/11/02/time-finances-confidence-knowledge-research-communicators-should-be-attentive-to-the-resource-inequalities-inherent-to-academia/\

CARRIGAN, M. Academics should embrace Lo-Fi podcasting [online]. LSE Impact Blog, 2022 [viewed 14 June 2024]. Available from: https://blogs.lse.ac.uk/impactofsocialsciences/2022/07/13/academics-should-embrace-lo-fi-podcasting/

Links externos

Augie: https://beta.meetaugie.com/

Talking Threads: https://open.spotify.com/show/3fV5lYTTkLfLL0CKCVE2pB?si=a41dfb4f0d464621

Recent posts | Impact of Social Sciences – Andy Tattersall: https://blogs.lse.ac.uk/impactofsocialsciences/recent-posts/?author=cap-andy-tattersall

Text to Speech | Web Accessibility Initiative (WAI) | W3C: https://www.w3.org/WAI/perspective-videos/speech/

Andy Tattersall (@Andy_Tattersall) / X: https://x.com/Andy_Tattersall

Andy Tattersall (0000-0002-2842-9576) – ORCID: https://orcid.org/0000-0002-2842-9576

Podcasts in the UK – statistics & facts | statista: https://www.statista.com/topics/6908/podcasts-in-the-uk/#topicOverview

How to upload text to Augie: https://augxlabs.notion.site/How-to-upload-text-to-Augie-39c59367b3f34097b91495c537af3f00

 

Sobre Andy Tattersall

Andy Tattersall

Andy Tattersall é um Especialista em Informação na The School of Health and Related Research (ScHARR) e escreve, ensina e dá palestras sobre academia digital, tecnologia, comunicações acadêmicas, pesquisa aberta, web e ciência da informação, aplicativos, altmetria e mídias sociais. Em particular, suas aplicações para pesquisa, ensino, aprendizado, gerenciamento do conhecimento e colaboração. Andy recebeu um prêmio do senado da Universidade de Sheffield por seu trabalho pioneiro em Massive Open Online Courses (MOOCs) em 2013 e é fellow sênior da Higher Education Academy. Ele também é presidente do Comitê de Multimídia e Tecnologia da Informação do Chartered Institute of Library and Information Professionals. Andy foi listado como um dos Dez Superastros das Mídias Sociais da Jisc para 2017 no Ensino Superior. Ele editou um livro sobre altmetria para a Facet Publishing voltado para pesquisadores e bibliotecários.

 

Artigo original em inglês

https://blogs.lse.ac.uk/impactofsocialsciences/2024/06/10/how-to-translate-academic-writing-to-podcasts-using-generative-ai/

 

Traduzido do original em inglês com ajuda do ChatGPT.

 

Como citar este post [ISO 690/2010]:

TATTERSALL, A. Como traduzir escrita acadêmica para podcasts usando IA generativa [Publicado originalmente no LSE Impact Blog em junho/2024] [online]. SciELO em Perspectiva, 2024 [viewed ]. Available from: https://blog.scielo.org/blog/2024/06/14/escrita-academica-para-podcasts-usando-ia/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation