¿Porqué XML?

Por Abel L. Packer, Eliana Salgado, Javani Araujo, Letícia Aquino, Renata Almeida, Jesner Santos, Suely Lucena, Caroline M. Soares

Imagen: Ejemplo de artículo producido con el "SciELO Publishing Schema"

Imagen: Ejemplo de artículo producido con el “SciELO Publishing Schema”

Un notable avance ha venido perfeccionando la edición, publicación y la interoperabilidad de las revistas SciELO. Se trata de la estructuración de los textos completos de acuerdo con el lenguaje XML, que se adoptará en la operación de todas las revistas SciELO a partir del año 2015. El Programa SciELO está promoviendo la introducción de esta mejora en la metodología y tecnología del tratamiento de textos desde 2012. Las revistas de ciencias de la salud comenzaron a adoptar la innovación a partir de 2014.

¿Por qué este cambio? ¿Cuáles son las ventajas? ¿Cuáles son los principales retos que hay que superar?

XML es un acrónimo extraído de la frase en inglés eXtensible Markup Language = Lenguaje Extensible de Marcación. Es un lenguaje, o más bien un metalenguaje que permite definir reglas (o lenguajes, de ahí la denominación de extensible) que especifica cómo marcar partes significativas de un texto, incluyendo palabras, frases, números, fórmulas, etc. Por ejemplo, en el texto de un artículo pueden marcarse sus elementos bibliográficos, como el título, autores, resumen, palabras claves, secciones párrafos, tablas, figuras, citas, referencias bibliográficas, etc. En el caso de artículos científicos, el manuscrito original se prepara generalmente con el auxilio de un editor de textos y después de varios procesos de evaluación y edición se prepara para la publicación. Los textos de los artículos generalmente siguen una determinada estructura, comenzando por el título, seguido por los autores y así sucesivamente. XML se usa para estructurar precisamente todos los elementos de los textos en los procesos de edición contemporánea de los artículos y otros tipos de documentos. Cada elemento está definido por una etiqueta (tag en inglés). Así, por ejemplo, el autor Albert Einstein podría ser identificado o etiquetado como:

<author><surname>Einstein</surname><name>Albert</name></author>

Los textos estructurados son pasibles de procesamiento exhaustivos por programas de computador.

Por lo tanto, es posible a partir de los textos marcados extraer metadatos del articulo (título, autores, resumen, palabras claves, revista, volumen, número, paginación, fecha de presentación, fecha de aprobación y otros) y formar/construir su referencia bibliográfica. O sea, ya no es necesario el proceso clásico de preparación visual y manual de la referencia bibliográfica a partir de la primera página del manuscrito en papel. Esta extracción además asegura que la referencia bibliográfica es fiel al texto del artículo al evitar errores de transcripción.

También es importante tener en cuenta que identificar con precisión los elementos bibliográficos es parte del procesamiento de los textos marcados para la verificación de su exactitud y consistencia. De modo que es posible verificar si todos los elementos bibliográficos que se espera están presentes y si obedecen a las reglas de formación. Por ejemplo, si hubiere una fecha de presentación que indicara “31 de abril de 2014” será posible detectar el error. Esta capacidad que adquiere el texto marcado se aplican a todos los elementos que fueron estructurados. Es decir, es posible comprobar la especificación y consistencia de las secciones, párrafos, tablas, figuras y especialmente las referencias bibliográficas de los documentos citados en el texto. Esta capacidad de tener su estructura y componentes identificados y procesados por los programas de computador es la principal característica que proviene del uso de la norma XML. De esta capacidad los textos marcados son susceptibles de ser almacenados en bases de datos, de ser interoperados entre sistemas en la Web y que sean presentados en diferentes formatos. Así, en el caso de los artículos SciELO en XML, son intercambiados con los índices bibliográficos y otros sistemas de procesamiento de información científica, cada uno con sus propios sistemas computacionales y diferentes estructuras de textos. Otra característica clave de los textos en XML es su capacidad de ser presentados en formatos diferentes de lectura, tamaños de letras, de líneas, de páginas, de navegación entre secciones, etc. Esta capacidad es particularmente importante hoy en día con los diferentes dispositivos de lectura, desde la pantalla tradicional de los computadores de escritorio hasta los dispositivos móviles como las tabletas y los teléfonos celulares.

Con en XML se pueden definir diferentes estructuras de marcación de textos de artículos. Sin embargo, se recomienda seguir una estructura que sea un estándar internacional, que se conozca por los diferentes sistemas internacionales. SciELO podría haber definido una estructura propia de los artículos, pero en este caso, toda la interacción con los sistemas externos requerirían un tratamiento específico o conversiones a las normas internacionales. Por lo tanto, SciELO adoptó una norma internacional ya establecida que se llama Jornal Article Tag Suite (JATS) que puede ser traducida como Conjunto de Etiquetas de Artículos. JATS tiene su origen en la Journal Archiving and Interchange Tag Suite creada por la National Library of Medicine de los Estados Unidos, para marcar los textos de los artículos almacenados y publicados por PubMed Central (PMC). Las revisiones del con junto de etiquetas PMC dieron origen JATS en la forma de una norma del National Information Standards Organization (NISO) de los Estados Unidos, identificada como JATS: Journal Article Tag Suite, version 1.0 (ANSI/NISO Z39.96-2012).

Sin embargo, para atender las necesidades de procesamiento de SciELO fue necesario agregar nuevas etiquetas JATS. La posibilidad de añadir nuevas etiquetas es una de las características del lenguaje XML. Las nuevas etiquetas especifican en detalle los diferentes niveles de afiliación de los autores, incluyendo, por ejemplo la universidad, facultad, y el departamento. SciELO agregó también la etiqueta que identifica la especificación de las agencias financiadoras de las investigaciones. Otra modificación importante agregada por SciELO es la especificación detallada de las referencias bibliográficas necesarias para el montaje de la base de datos bibliométricos.

El uso del XML para especificar una determinada estructura de un texto, sea un artículo científico, una receta de cocina o una factura fiscal, da origen a una especificación que normalmente se almacena en un archivo, que contiene las reglas de cómo debe ser estructurado el texto. Esta especificación de las reglas puede ser formulada de dos maneras. La primera se llama Document Type Definition (DTD) y la otra, XML Schema Definition (XSD). El DTD fue la primer forma de especificar la aplicación XML, pero debido a diversas restricciones fueron reemplazadas gradualmente por el XSD que ofrece una mayor flexibilidad. Los archivos DTD o XSD dicen a los programas de computador cómo deben “leer” y procesar los textos marcados. En el caso de los artículos SciELO se utiliza el XSD que, como vimos antes, es derivado de JATS e identificado como SciELO Publishing Schema.

SciELO utiliza etiquetas de textos desde la creación de su metodología de publicación en 1997. En la época de la creación de SciELO, el lenguaje estándar de marcación de textos era el Standard Generalized Markup Language (SGML). SciELO adoptó el SGML a partir del DTD norma ISO para la marcación de textos identificada como ISO 12083-1994 (Electronic Manuscript Preparation and Markup). El uso del DTD se restringió a la marcación de los elementos bibliográficos de la parte frontal del artículo para generar la referencia bibliográfica, y de la parte final para identificar las referencias bibliográficas. El texto de los artículos fueron etiquetados con el inicio y final de un párrafo sin más detalles. Esta marcación se hace a partir del texto final del artículo normalmente en formato PDF, convertido previamente a HTML. Esa solución permitió la operación de los textos marcados por SciELO sin interferir en los procesos de publicación de revistas. Sin embargo, esa metodología de marcación ya no responde a las demandas actuales de estructuración, intercambio y presentación de los textos de los artículos y otros tipos de documentos científicos. Por esta razón, el Programa SciELO inició en 2012 la promoción de la adopción del nuevo sistema de marcación detallada de los textos completos.

Una característica esencial de este cambio es centrarse en la versión final de los textos en el archivo XML, es decir, los formatos de presentación PDF, HTML y PUB son derivados del XML. Los archivos en XML también son los más apropiados para la preservación digital ya que serán capaces en el futuro de ser procesados en las nuevas tecnologías de almacenamiento, transferencia y presentación.

Este avance en la estructuración de los textos de los artículos SciELO es parte integral de la implantación de líneas prioritarias de acción de profesionalización e internacionalización de SciELO que se traducen en el desarrollo de la capacidad nacional de producir revistas de acuerdo con el estado del arte internacional. Para promover este avance, SciELO incentivó a empresas nacionales a desarrollar soluciones propias para el procesamiento del nuevo SciELO Publishing Schema así como la participación de empresas internacionales. SciELO también ofrece capacitación a los equipos de las revistas que opten por el procesamiento de sus textos.

Cambios importantes como éste siempre representan un desafío, particularmente para las revistas que son producidas en condiciones de limitados recursos financieros, de profesionalización y de capacidad de adopción de innovaciones. Se sumam a estas condiciones las dificultades que tienen algunos editores en percibir y evaluar los logros que tendrán con la adopción del XML. Para responder a estas situaciones el Programa SciELO ha venido promoviendo este cambio con bastante anticipación de modo que todas las revistas desarrollen las condiciones para incorporar este cambio en las formas de producción.

Referencias

ANSI/NISO Z39.96-2012, JATS: Journal Article Tag Suite. http://jats.niso.org/

SciELO Publishing Schema, http://static.scielo.org/sps/schema/SciELO-journalpublishing1.xsd

XML, http://pt.wikipedia.org/wiki/XML

XML, http://es.wikipedia.org/wiki/XML

XML, http://en.wikipedia.org/wiki/XML

 

Traducido del orginal en portugués por Ernesto Spinak.

 

[Revisado – 01 Diciembre 2016]

 

Como citar este post [ISO 690/2010]:

PACKER, A., et al. ¿Porqué XML? [online]. SciELO en Perspectiva, 2014 [viewed ]. Available from: https://blog.scielo.org/es/2014/04/04/porque-xml/

 

3 Thoughts on “¿Porqué XML?

  1. Pingback: Transición de formato de las revistas de SciELO a XML | CONRICYT

  2. Pingback: El uso de XML en las revistas académicas latinoamericanas |

  3. Gracias por el articulo, es muy interesante todo esa tema.

    Un saludo,

    Ben

Leave a Reply

Your email address will not be published. Required fields are marked *

Post Navigation