XML, por quê?

Por Abel L. Packer, Eliana Salgado, Javani Araujo, Letícia Aquino, Renata Almeida, Jesner Santos, Suely Lucena, Caroline M. Soares

Imagem: Exemplo de artigo produzido com o "SciELO Publishing Schema"

Imagem: Exemplo de artigo produzido com o “SciELO Publishing Schema”

Um avanço notável vem aperfeiçoando a editoração, publicação e interoperabilidade dos periódicos SciELO. Trata-se da estruturação dos textos completos segundo a linguagem XML, que será adotada na operação de todos periódicos SciELO a partir 2015. O Programa SciELO vem promovendo a introdução deste aprimoramento na metodologia e tecnologia de tratamento dos textos desde 2012. Os periódicos de ciências da saúde começaram adotar a inovação a partir de 2014.

Por que esta mudança? Quais as vantagens? Quais são os principais desafios a serem vencidos?

XML é o acrônimo extraído da frase em inglês eXtensible Markup Language que pode ser traduzida para Linguagem Extensível de Marcação. Trata-se de uma linguagem, ou melhor, de uma meta-linguagem que permite definir regras (ou linguagens, daí a denominação extensível) que especificam como marcar partes significativas de um texto, incluindo palavras, frases, números, fórmulas, etc. Por exemplo, no texto de um artigo, pode-se marcar seus elementos bibliográficos, como o título, autores, resumo, palavras-chave, seções, parágrafos, tabelas, figuras, citações, referências bibliográficas, etc. No caso dos artigos científicos, o manuscrito original é comumente preparado com o auxílio de editor de textos e após vários processos de avaliação e edição está preparado para a publicação. Os textos dos artigos seguem em geral uma determinada estrutura, começando pelo título, seguido pelos autores e assim por diante. O XML é utilizado para estruturar precisamente todos os elementos dos textos nos processos de publicação contemporânea dos artigos e outros tipos de documentos. Cada elemento é definido por uma etiqueta (tag em inglês). Assim, por exemplo, o autor Albert Einstein poderia ser identificado ou etiquetado como:

 <author> <surname>Einstein</surname><name>Albert</name></author>

Os textos estruturados são passíveis de processamento exaustivo por programas de computador. Assim, é possível a partir dos textos marcados extrair metadados do artigo (título, autores, resumo, palavras chaves, periódico, volume, número, paginação, data de submissão, data de aprovação e outros) e formar/construir sua referência bibliográfica. Ou seja, já não é necessário o processo clássico de elaboração visual e manual da referência bibliográfica a partir da primeira página do artigo em papel. Essa extração garante ademais que a referência bibliográfica seja fiel ao texto do artigo ao evitar erros de transcrição.

Importante também é considerar que ao se identificar precisamente os elementos bibliográficos é praxe como parte do processamento dos textos marcados a verificação da sua correção e consistência. De modo que é possível verificar se todos os elementos bibliográficos esperados estão presentes e se obedecem as regras de formação. Por exemplo, se houver uma data de submissão que indica “31 de abril de 2014” será possível detectar o erro. Essa capacidade que o texto marcado adquire aplica-se a todos os elementos que foram estruturados. Ou seja, é possível verificar a especificação e consistência das seções, parágrafos, tabelas, figuras e especialmente das referências bibliográficas dos documentos citados no texto. Esta capacidade de ter a sua estrutura e elementos identificados e processados por programas de computador é a principal característica que advém do uso do padrão XML. A partir desta capacidade, os textos marcados são passíveis de serem armazenados em bases de dados, de serem interoperados entre sistemas na Web e de serem apresentados em diferentes formatos. Assim, no caso do SciELO os artigos em XML são intercambiados com os índices bibliográficos e outros sistemas de processamento de informação científica, cada um com seus próprios sistemas computacionais e diferentes estruturas de textos. Outra característica chave dos textos em XML é sua capacidade de ser apresentado em diferentes formatos de leitura, tamanhos de letras, de linhas, de páginas, de navegação entre seções, etc. Essa capacidade é particularmente importante hoje com os diferentes dispositivos de leitura, desde a tradicional tela dos computadores de mesa até os dispositivos móveis como os tablets e celulares.

Com o XML é possível definir diferentes estruturas de marcação de textos de artigos. Entretanto, o recomendável é seguir uma estrutura que seja padrão internacional, que seja conhecida pelos diferentes sistemas internacionais. O SciELO poderia ter definido uma estrutura própria dos artigos, mas, nesse caso, toda interação com sistemas externos requereria tratamento específico ou conversões para padrões internacionais. Por isso, o SciELO adotou um padrão internacional já consagrado, que é denominado Journal Article Tag Suite (JATS) que pode ser traduzido para Conjunto de Etiquetas de Artigos. O JATS tem sua origem no Journal Archiving and Interchange Tag Suite criado pela National Library of Medicine dos Estados Unidos para marcar os textos dos artigos armazenados e publicados pelo PubMed Central (PMC). Revisões do conjunto de etiquetas do PMC deram origem ao JATS na forma de uma norma do National Information Standards Organization (NISO) dos Estados Unidos, identificada como JATS: Journal Article Tag Suite, version 1.0 (ANSI/NISO Z39.96-2012).

Entretanto, para atender as demandas de processamento do SciELO foi necessário adicionar à JATS novas etiquetas. A possibilidade de agregar novas etiquetas é uma das características da linguagem XML. As novas etiquetas especificam em detalhe os diferentes níveis de afiliação dos autores, incluindo, por exemplo, universidade, faculdade e departamento. O SciELO agregou também a etiqueta que identifica a especificação das agências financiadoras das pesquisas. Outra modificação importante agregada pelo SciELO é a especificação detalhada das referências bibliográficas, necessário para a montagem da base de dados bibliométricos.

O uso da linguagem XML para especificar uma determinada estrutura de um texto, seja um artigo científico, uma receita culinária ou uma nota fiscal, dá origem a uma especificação que normalmente é armazenada em um arquivo, que contém as regras de como o texto deverá ser estruturado. Esta especificação das regras pode ser formulada usando de duas maneiras. A primeira se chama Document Type Definition (DTD) e a outra, XML Schema Definition (XSD). A DTD foi a primeira forma de especificar a aplicação da XML, mas devido a diversas limitações foi aos poucos substituída pelo XSD que oferece maior flexibilidade. Os arquivos DTD ou XSD informam os programas de computador como devem “ler” e processar os textos marcados. No caso dos artigos SciELO o XSD usado é, como vimos antes, derivado do JATS e identificado como SciELO Publishing Schema.

O SciELO utiliza a marcação de textos desde a criação da sua metodologia de publicação em 1997. Na época da criação do SciELO, a linguagem padrão de marcação de textos era o Standard Generalized Markup Language (SGML). O SciELO adotou o SGML a partir da DTD padrão ISO para a marcação de textos identificada como ISO 12083-1994 (Electronic Manuscript Preparation and Markup).  O uso da DTD restringiu-se à marcação dos elementos bibliográficos da frente do artigo para gerar a referência bibliográfica e da parte final para identificar as referências bibliográficas. O texto dos artigos teve etiquetados o inicio e fim de parágrafo sem maior detalhamento. Essa marcação é feita a partir do texto final do artigo normalmente no formato PDF, convertido previamente em HTML. Essa solução permitiu a operação dos textos marcados pelo SciELO sem interferir nos processos de publicação dos periódicos. Entretanto, essa metodologia de marcação já não responde às demandas atuais de estruturação, intercâmbio e apresentação dos textos dos artigos e outros tipos de documentos científicos. Por esta razão, o Programa SciELO deu início em 2012 a promoção da adoção do novo sistema de marcação detalhada dos textos completos.

Uma característica essencial dessa mudança é centrar a versão final dos textos no arquivo em XML, ou seja, os formatos de apresentação PDF, HTML e ePUB são derivados do XML. Os arquivos em XML são também os mais apropriados para a preservação digital visto que serão passíveis no futuro de serem processados em novas tecnologias de armazenamento, transferência e apresentação.

Este avanço na estruturação dos textos dos artigos SciELO é parte integral da implantação das linhas prioritárias de ação de profissionalização e internacionalização do SciELO que se traduz no desenvolvimento da capacidade nacional de produzir periódicos de acordo com o estado da arte internacional. Para promover este avanço, o SciELO incentivou empresas nacionais a desenvolverem capacidade e soluções próprias para o processamento do novo SciELO Publishing Schema assim como a participação de empresas internacionais. O SciELO oferece também capacitação às equipes dos periódicos que optam pelo processamento dos seus textos.

Mudanças importantes como esta representam sempre um desafio, particularmente para os periódicos que são produzidos em condições limitadas de recursos financeiros, de profissionalização e de capacidade de adoção de inovações. Somam-se a estas condições as dificuldades que alguns editores têm de perceber e avaliar os ganhos que terão com a adoção do XML. Para responder a estas situações o Programa SciELO vem promovendo esta mudança com bastante antecipação de modo a que todos os periódicos desenvolvam as condições para incorporar esta mudança nas formas de produção.

Referências

ANSI/NISO Z39.96-2012, JATS: Journal Article Tag Suite. http://jats.niso.org/

SciELO Publishing Schema, http://static.scielo.org/sps/schema/SciELO-journalpublishing1.xsd

XML, http://pt.wikipedia.org/wiki/XML

XML, http://es.wikipedia.org/wiki/XML

XML, http://en.wikipedia.org/wiki/XML

 

[Revisado – 01 Dezembro 2016]

 

 

Como citar este post [ISO 690/2010]:

PACKER, A., et al. XML, por quê? [online]. SciELO em Perspectiva, 2014 [viewed ]. Available from: http://blog.scielo.org/blog/2014/04/04/xml-porque/

 

8 Thoughts on “XML, por quê?

  1. Parabéns pela iniciativa. Sem dúvida é o caminho correto para a publicação científica.

    Apenas uma correção, pois o texto abaixo está incorreto:
    “O SciELO agregou também a etiqueta que identifica a especificação das agências financiadoras das pesquisas. Outra modificação importante agregada pelo SciELO é a especificação detalhada das referências bibliográficas, necessário para a montagem da base de dados bibliométricos.”

    As etiquetas para identificar financiamento e elementos detalhados nas referências já faz parte do conjunto JATS e por isso não foram agregadas pelo SciELO. O mais correto seria dizer que o SciELO também vai utilizar essas etiquetas.

  2. Pingback: Número 1/2014 da RBPI traz novidades na produção editorial | Antônio Carlos Lessa

  3. Pingback: Fim do texto em duas colunas nas publicações científicas!? | Ciência Aberta

  4. Pingback: Fim do texto em duas colunas nas publicações científicas!? - Valinhos Online

  5. Pingback: ¿Por qué los artículos en XML y PDF?

  6. Thaiane Oliveira on January 17, 2017 at 11:36 said:

    Gostaria de saber mais informações sobre a capacitação às equipes dos periódicos para processamento dos textos na linguagem. Há algum curso?

Leave a Reply

Your email address will not be published. Required fields are marked *

Post Navigation