Cómo traducir la escritura académica en podcasts usando IA generativa [Publicado originalmente en el LSE Impact Blog en junio/2024]

Por Andy Tattersall

Imagen de una obra de arte compuesta por varias letras lilas en una formación similar a una nube, generada por Google DeepMind.

Imagen: Google DeepMind.

Durante la última década, he escrito varios artículos para el LSE Impact Blog y otras plataformas. Creo que el blog es un medio vital para compartir nuevas investigaciones e ideas. Como piezas independientes o compañeros de producciones formales más largas, los posts desempeñan un papel importante en el panorama de la información.

Sin embargo, existen límites inherentes al texto y el desarrollo de nuevas herramientas de inteligencia artificial (IA) generativa ha hecho más fácil la transición del texto a la voz. Por lo tanto, quería ver si podía combinar el blog con otra actividad favorita mía, el podcast.

Mi plan era dar nueva vida a este archivo de artículos escritos, muchos de los cuales siguen siendo relevantes y bien leídos. Por supuesto, podría grabar estos artículos como podcasts usando mi propia voz (tengo las habilidades y la tecnología necesaria), pero quería explorar si la IA podría crear formas más simplificadas y accesibles de podcast para los académicos.

La tecnología de texto a voz está progresando rápidamente y hay un número creciente de herramientas que pueden ayudar con la accesibilidad. Las versiones de audio no son nuevas, los audiolibros están bien establecidos y las versiones de audio de artículos de investigación son algo que las editoriales han experimentado durante algún tiempo, aunque generalmente con resultados mixtos. Los podcasts todavía son considerados por muchos en la academia como una nueva forma de diseminar ideas e investigaciones, pero también han estado disponibles durante las últimas dos décadas. Según una relatoría de statista,1 la audiencia de podcasts en el Reino Unido continúa creciendo, con una estimación de 21,2 millones de oyentes de podcasts en 2022. Entonces, ¿por qué no (para acuñar una nueva palabra) blogcasts?

Como la mayoría de las nuevas tecnologías digitales, la adopción lenta de los podcasts en la academia se debe principalmente a barreras relacionadas con el tiempo, las finanzas, la confianza y el conocimiento. Sin embargo, con el apoyo y la formación adecuados, cualquiera puede hacer y compartir un podcast. Esto podría ser un podcast básico y sin muchos recursos, aunque aún así requiere habilidades de planificación, alojamiento y edición. Para muchos, la ansiedad por grabar (o incluso escuchar) su propia voz puede ser desafiante. En última instancia, el contenido debe valer el tiempo del oyente, tal vez no sea de la calidad de la BBC, pero cuanto mejor sea la presentación y la calidad del sonido, más probable es que los oyentes se involucren.

Entonces, este fue mi proyecto. Después de obtener permiso del LSE Impact Blog y de The Conversation para republicar mis artículos en un nuevo formato, creé una nueva cuenta de podcast en Spotify llamada Talking Threads. Aunque hay muchas opciones disponibles en el mercado, elegí una herramienta llamada Augie, que se centra principalmente en la creación de videos y animaciones utilizando IA. Tiene una función que le permite agregar texto, que se puede usar para generar un video con una voz de IA narrándolo con sus propias palabras. Lo usé principalmente para exportar un archivo de audio, ya que las elecciones de imágenes de IA aún están muy alejadas de temas tan específicos.

Proporcioné una introducción al podcast usando mi propia voz y luego reformateé todos mis antiguos artículos para que Augie tuviera una mejor oportunidad de leer el texto correctamente. Sorprendentemente, fue bueno pronunciar nombres, pero tuvo dificultades con palabras compuestas como “paywall“, que cambié a “pay wall“. Lo mismo ocurrió con acrónimos como “API” y “DOI”, que cambié a “A P I” y “D O I”. Fue interesante escuchar lo que había escrito que me leían tan claramente, pero también resaltó algunas ocasiones en las que necesitaba modificar el texto para que sonara mejor. Una vez que resolví cualquier problema y leí el artículo modificado, el proceso fue bastante simple.

La breve guía de Augie2 explica cómo agregar texto para generar su audio. Los pasos son los siguientes: seleccione “crear” y luego elija “tengo un texto que quiero convertir en video”. Luego pegue su guion y elija una voz y luego escuche una vista previa. Una vez satisfecho con la grabación, haga clic en los tres puntos en el botón de reproducción/vista previa y seleccione descargar. Esto descargará su audio como un archivo mp3.

Una consideración que tuve que hacer fue la elección de la voz. Augie tiene algunas docenas de voces para elegir. La mayoría de ellas son estadounidenses, al igual que con los generadores de imágenes de IA, parece haber un sesgo hacia las salidas de los Estados Unidos. Decidí, como hombre blanco inglés, elegir voces de hombres blancos ingleses para los podcasts, ya que inicialmente sentí que deberían representar al autor. Luego me di cuenta de que los audiolibros pueden no ser leídos por alguien con el mismo trasfondo que el autor. Así que experimenté creando algunos con acentos estadounidenses y australianos y una voz femenina. Aunque esto puede plantear otros problemas sobre la representación, si tuviera que hacerlo de nuevo desde cero, definitivamente consideraría aumentar la variedad de voces en la mezcla.

Mi enfoque para la adopción de tecnología está impulsado por dos factores. En primer lugar, adopto la tecnología basada en razones pedagógicas a través del prisma de la comunicación de investigación. En segundo lugar, para explorar la novedad de las nuevas tecnologías y sus posibilidades. Los podcasts pueden tomar una idea, una teoría y algo escrito y hacerlos más accesibles. Esto ayuda naturalmente a las personas con discapacidades visuales o discapacidades, pero también incluye a personas que simplemente quieren un descanso de la pantalla de la computadora. También son portátiles y ofrecen un respiro del bombardeo de la palabra escrita en el entorno laboral. Mientras que un artículo de revista o un libro exige toda tu atención, el audio también proporciona una forma más ambiente de interactuar con las ideas, mientras las personas viajan o realizan otras tareas.

El otro factor, la novedad, de ninguna manera menosprecia la primera razón. Como defendió el teórico de la comunicación Marshall McLuhan: “El medio es el mensaje” y explorar la IA y el audio puede ser un catalizador para llamar la atención sobre tu trabajo. Por supuesto, al igual que los podcasts en sí mismos, no son para todos y idealmente querrías grabar tu propio podcast usando tu propia voz. Esta ciertamente fue una opción para mí, pero fue refrescante usar una variedad de voces. La calidad y el tono de ellas es profesional, pudieron captar la ironía y aplicar pausas en los lugares correctos. Grabar la propia voz a partir del texto requiere práctica, de lo contrario, puede sonar igual de rígido y aburrido que una voz generada. Todos hemos experimentado presentaciones en las que el orador ha leído páginas de texto textualmente a una audiencia y ha logrado perder su atención después de los primeros minutos debido a tener el tono incorrecto.

La IA no sufrió notablemente el problema de sonar aburrida con su propia voz. Si deseas que otros se interesen en tus ideas e investigaciones, es fundamental que el narrador suene comprometido con el texto que está leyendo. Los podcasts producidos por IA abren otras posibilidades futuras para producir versiones en otros idiomas traducidos (siempre que sean revisados adecuadamente). Los podcasts de IA pueden no ser para todos, pero sí ofrecen una solución a personas y grupos que no tienen acceso a equipos de grabación o que carecen de confianza. Y por si te lo estabas preguntando, este post fue 100% escrito por mí.

Puedes escuchar el blogcast de Andy, Talking Threads – Where AI Meets Impact, siguiendo el enlace. También puedes encontrar todas las publicaciones de Andy en el LSE Impact Blog aquí.

 

 

Notas

1. Podcasts in the UK – statistics & facts | statista: https://www.statista.com/topics/6908/podcasts-in-the-uk/#topicOverview

2. How to upload text to Augie: https://augxlabs.notion.site/How-to-upload-text-to-Augie-39c59367b3f34097b91495c537af3f00

Referencias

TATTERSAL, A. Time, Finances, Confidence, Knowledge – Research communicators should be attentive to the resource inequalities inherent to academia [online]. LSE Impact Blog, 2021 [viewed 14 June 2024]. Available from: https://blogs.lse.ac.uk/impactofsocialsciences/2021/11/02/time-finances-confidence-knowledge-research-communicators-should-be-attentive-to-the-resource-inequalities-inherent-to-academia/\

CARRIGAN, M. Academics should embrace Lo-Fi podcasting [online]. LSE Impact Blog, 2022 [viewed 14 June 2024]. Available from: https://blogs.lse.ac.uk/impactofsocialsciences/2022/07/13/academics-should-embrace-lo-fi-podcasting/

Enlaces externos

Augie: https://beta.meetaugie.com/

Talking Threads: https://open.spotify.com/show/3fV5lYTTkLfLL0CKCVE2pB?si=a41dfb4f0d464621

Recent posts | Impact of Social Sciences – Andy Tattersall: https://blogs.lse.ac.uk/impactofsocialsciences/recent-posts/?author=cap-andy-tattersall

Text to Speech | Web Accessibility Initiative (WAI) | W3C: https://www.w3.org/WAI/perspective-videos/speech/

Andy Tattersall (@Andy_Tattersall) / X: https://x.com/Andy_Tattersall

Andy Tattersall (0000-0002-2842-9576) – ORCID: https://orcid.org/0000-0002-2842-9576

Podcasts in the UK – statistics & facts | statista: https://www.statista.com/topics/6908/podcasts-in-the-uk/#topicOverview

How to upload text to Augie: https://augxlabs.notion.site/How-to-upload-text-to-Augie-39c59367b3f34097b91495c537af3f00

 

Sobre Andy Tattersall

Andy Tattersall

Andy Tattersall es Especialista en Información en la The School of Health and Related Research (ScHARR) y escribe, enseña y ofrece charlas sobre academia digital, tecnología, comunicaciones académicas, investigación abierta, ciencia web e información, aplicaciones, altmétricas y redes sociales. En particular, sus aplicaciones para la investigación, enseñanza, aprendizaje, gestión del conocimiento y colaboración. Andy recibió un Premio del Senado de la Universidad de Sheffield por su trabajo pionero en Massive Open Online Courses (MOOCs) en 2013 y es Miembro Superior de la Academia de Educación Superior. También es Presidente del Comité de Tecnología Multimedia e Información del Chartered Institute of Library and Information Professionals. Andy fue incluido en la lista de los diez superestrellas de las redes sociales de Jisc para 2017 en Educación Superior. Ha editado un libro sobre altmétricas para Facet Publishing dirigido a investigadores y bibliotecarios.

 

Artículo original en inglês

https://blogs.lse.ac.uk/impactofsocialsciences/2024/06/10/how-to-translate-academic-writing-to-podcasts-using-generative-ai/

 

Traducido del inglés original con la ayuda de ChatGPT.

 

Como citar este post [ISO 690/2010]:

TATTERSALL, A. Cómo traducir la escritura académica en podcasts usando IA generativa [Publicado originalmente en el LSE Impact Blog en junio/2024] [online]. SciELO en Perspectiva, 2024 [viewed ]. Available from: https://blog.scielo.org/es/2024/06/14/escritura-academica-en-podcasts-usando-ia/

 

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Post Navigation