InícioMetodologia

Metodologia

O projeto
O projeto “Ministros e Governantes de Portugal (1834-1910)” foi desenvolvido numa colaboração entre o Laboratório de Humanidades Digitais do IHC e alunos do primeiro ano de licenciatura de História da NOVA-FCSH. Foi inicialmente planeado e concebido num workshop intensivo nos dias 3 e 4 de Julho, tendo sido desenvolvidas algumas tarefas de forma dispersa nas semanas seguintes. Este projeto partiu da digitalização de parte da obra Monarquia constitucional: organização e relações do poder governamental com a Câmara dos Deputados, 1834-1910, de Manuel Pinto dos Santos, e resultou na criação do actual site disponível através do link https://ministrosgovernantespt.omeka.net/.

A divisão de tarefas
A primeira etapa consistiu na divisão de tarefas pelos vários membros do projeto. A Miriam Albuquerque ficou responsável pela digitalização da fonte em ficheiros PDF, enquanto que a Leonor Pratas, noutro computador, tratou da conversão de todos os PDF num único ficheiro tabular, com reconhecimento de caracteres. O João Pereira, a Ana Rita Pereira e a Luana Silva prontificaram-se a tratar da elaboração do site.

A digitalização
Para a digitalização, testou-se entre a câmara de um telemóvel (Huawei P20 Lite) e um scanner (Canon Lide 120). O objetivo era perceber qual dos dispositivos permitiria uma melhor qualidade de imagem. Acabámos por optar pelo scanner, visto que a sua resolução, para efeitos de reconhecimento de carateres, era superior à do telemóvel e as imagens não ficavam tão distorcidas.

O OCR
A Leonor realizou, de seguida, várias experiências de forma a perceber qual a melhor maneira de juntar toda a informação num ficheiro Excel, através do programa ABBYY FINE READER. As digitalizações foram alvo de um conjunto de modificações que passaram pelo chamado Pre-Process (alterações automáticas feitas pelo próprio software) e pela função Crop (necessária para recortar e selecionar as informações mais relevantes) no sentido de melhorar o processo de reconhecimento de caracteres (função Read).

Tendo em conta o formato final que se pretendia para os dados (tabular) foram depois aplicadas algumas configurações. Foram adicionadas linhas horizontais (Add Horizontal Separator) e verticais (Add Vertical Separator) sempre que necessário. Além de todas estas modificações, certas áreas digitalizadas eram reconhecidas pelo programa como texto, pelo que foi também preciso transformá-las em tabela (Change Area Type to Table). Recorreu-se ainda à função Split Cells (usada para separar as células na tabela).

A criação do site
Antes de se proceder à construção do site, foram pesquisadas e analisadas várias plataformas tais como Omeka.net, Tainacan, Hyperbase, Wordpress, Wix ou Weebly. Verificadas as vantagens e desvantagens de cada uma destas plataformas, optámos pela Omeka.net (https://www.omeka.net/) visto que, além de gratuita, permitia a organização mais apelativa da informação. Permitia ainda uma participação colaborativa na criação do site. De seguida, procedemos à divisão de tarefas para a construção do site: a Luana Silva ficou responsável pelo design da página e o João Pereira pela elaboração da melhor forma de expor a informação. A Ana Rita ficou responsável pelo registo da metodologia seguida no projeto.

Relativamente ao design, achámos pertinente colocar uma imagem na HomePage e foram realizados vários testes para aferir qual a resolução correta da imagem a colocar. Depois de pesquisadas as imagens, relacionadas com o tema a ser abordado, o grupo decidiu escolher como imagem da página “Apresentação do Projeto” a Sala do Despacho do Palácio Nacional da Ajuda, e, juntamente com o título do site (feito em WordArt), foi escolhida também uma imagem da Sala Azul do Palácio das Necessidades. Esta escolha prendeu-se com o facto de estas salas serem os locais onde se reunia o Conselho de Ministros durante a monarquia constitucional. Finalizamos a decoração do site com a colocação dos logótipos da Faculdade de Ciências Sociais e Humanas (NOVA-FCSH) e do Laboratório de Humanidades Digitais (Lab_HD). Uma das dificuldades na construção do design do website foi entender quais os melhores códigos HTML a usar para conseguir dispor a informação de forma adequada nas várias páginas.

Simultaneamente, através de algumas tentativas, o João tentou perceber qual a melhor forma de apresentar e expor a informação. A ideia inicial era apresentá-la por reinados e subdividi-la em governos e ministros, contudo, visto que as configurações do site não o permitiram, foi necessário encontrar uma alternativa. Optámos apenas pela divisão em governos e a sua subdivisão em ministros. A estes foi associada uma etiqueta que permite recuperar os dados por reinados.

A verificação da qualidade do OCR
Em simultâneo, depois de produzido o ficheiro tabular em formato Excel, oriundo do processo de digitalização e OCR, foi verificar a qualidade do processo da transposição do analógico para o digital. Para avaliar a qualidade geral deste processo foram selecionados aleatoriamente cinco governos na tabela Excel, correspondentes a dez páginas do livro original, para procurarmos possíveis erros de conversão.

A análise permitiu observar que o ABBYY FINE READER revela dificuldades na leitura de alguns carateres, em especial quando têm tamanhos diferentes ou muito reduzidos, como é o caso das letras das notas de rodapé. O programa teve também dificuldade em identificar o carácter «?» substituindo-o por um «7», por exemplo. Tendo em conta o tratamento da amostra em estudo, foi-nos possível identificar 6 erros o que significaria cerca de 74 erros em todo o documento. Para além destes erros observaram-se também problemas de formatação: alguns dos números são de difícil percepção, havendo casos em que se confunde o «9» com o «3» (ex. «19/7/46» parece «13/7/46».) e no espaço correspondente a uma mudança de página no livro, a tabela fica com uma linha em branco. Observa-se ainda, que nos casos em que há mais do que uma pessoa para o mesmo cargo, apenas uma fica na linha associada ao cargo, o que acaba por dificultar a correcta visualização dos dados. Foi então necessário fazer correções e limpezas no ficheiro Excel.

Depois de uma limpeza inicial, usando os filtros de dados do Excel, bem como a função localizar e substituir, foi necessário transpor a identificação dos reinados e governos, que apareciam no topo de cada listagem de ministros, para colunas. Foi ainda necessário colocar as observações correspondentes aos ministros, disponíveis no livro em nota de rodapé, para uma outra coluna. Estes dois últimos passos não foram possíveis automatizar e foram os que mais tempo consumiram. Para finalizar esta tarefa, a informação foi alvo de uma segunda leitura para correção de erros ortográficos resultantes das falhas de OCR já referidas.

O problema da codificação dos caracteres
Após estas etapas de desenvolvimento do projeto deparámo-nos com outro desafio - transportar de maneira automática a informação recolhida no Excel para o Omeka. O João realizou então várias experiências para passar esses dados para o site de maneira automática, seguindo as recomendações do professor Daniel Alves: ajustar as colunas, guardar o ficheiro em formato CSV, criar um Tipo de Item no Omeka com os campos correspondentes às colunas do Excel, importar e fazer correspondência.

Contudo, o processo de codificação de carateres mostrou-se mais complicado do que aquilo que parecia inicialmente: o site não conseguia reconhecer caracteres portugueses, o que dificultava a importação dos dados. Para resolver a situação, o João e a investigadora Danielle Sanches procuraram várias maneiras de contornar esta situação. A solução foi encontrada utilizando o programa Notepad++ (https://notepad-plus-plus.org/) que permite converter os ficheiros da codificação ANSI que tinham originalmente para a codificação UTF-8.

A importação de dados para o Omeka
Mas o processo de importação implicava enviar para o Omeka os dados de cada governo em separado, para os associar às coleções onde registámos os nomes e datas dos governos. Como tínhamos todos os dados numa única tabela era necessário criar 62 tabelas, ficheiros Excel, diferentes. Procurámos então automatizar mais esta tarefa e após algumas pesquisas no Google foi possível encontrar uma solução através da utilização de uma macro para o Excel, o SplitByKey (disponível em http://ambienteoffice.com.br/blog/dividir-dados-por-chave/). Este programa permite dividir uma tabela do Excel automaticamente em mais folhas ou em ficheiros independentes, selecionando os dados de uma coluna como divisória, neste caso o nome dos governos.

Uma vez que os os ficheiros criados tinham de ser convertidos para CSV foi usado um outro programa, o XLS Converter, de modo a automatizar também esta tarefa. O progrma está diponível em http://cwestblog.com/2013/04/12/batch-excel-to-csv-converter-application/.

Seguiu-se, finalmente, a importação dos dados para o site Omeka que estava já concluído. Depois de uma última verificação ao conjunto dos dados, todos os registos foram tornados públicos de modo a poderem ser visualizados e pesquisados online.

Chamamos a atenção que outra funcionalidade interessante do Omeka é a que permite a exportação do conjunto dos dados ou de parte deles em vários formatos para utilização de outros investigadores.

Os dados podem ser explorados por "Governos" ou por "Ministros e Pastas". Os primeiros podem ser ordenados por titulo o que permite uma consulta cronológica de toda a informação. Os ministros (pastas) podem ser explorados por etiquetas que remetem para os reinados. É possível ainda fazer pesquisa a toda a informação do site.

Para nós foi um prazer e uma aprendizagem todo o processo de digitalização, conversão e correcção dos dados da fonte original, assim como a construção do site e a sua disponibilização em acesso aberto. Demorou um pouco mais do que o planeado inicialmente, mas fomos automatizando e superando as tarefas à medida que avançámos. Deixamos aqui a fonte, mas também toda a metodologia seguida, que pode ajudar em futuros projetos semelhantes.

Esperamos que o site seja uma fonte de informação histórica útil. Sabemos que a fonte original, o livro de Manuel Pinto dos Santos, tem alguns erros e omissões, mas contamos com a colaboração de quem visitar o site para nos indicar os mesmos ou sugerir melhorias. Se quiserem fazer comentários, sugestões ou correcções usem o email do Laboratório de Humanidades Digitais (dhlab@fcsh.unl.pt).