domingo, 27 de março de 2011

Digitalização de acervos raros: uma nova maneira de acessar conteúdo

Fonte: Olhar Digital

Veja como a Folha de S.Paulo e a USP estão trabalhando na disponibilização de seus arquivos para o público em geral.


Conteúdo é a chave da Internet. A capacidade de distribuir em larga escala informações que antes ficavam restritas é um dos pontos fortes da rede. Só que muita informação ainda está na fase do papel. E transformar esses conteúdos em material digital é trabalho longo, caro e complicado. Tem até robôs envolvidos no processo. No caso do jornal Folha de S.Paulo, foram mais de um 1,8 milhão de páginas de jornal digitalizadas.

"O objetivo do acervo, na verdade, é revitalizar e disponibilizar publicamente uma memória inédita do jornalismo brasileiro e de fatos que marcaram a história do Brasil e do mundo", diz Ana Busch, diretora executiva da Folha de S.Paulo

A biblioteca de José Mindlin, famoso colecionador de livros brasileiro, foi doada à Universidade de São Paulo. O acervo de 17 mil títulos, espalhados em mais de 40 mil volumes, está sendo inteiramente digitalizado. Depois de concluído o projeto, todo mundo poderá acessar o acervo pela Internet.

Para digitalizar todo o conteúdo, é necessária a ajuda de alguns robôs. Eles são responsáveis por copiar cada página para dentro do computador. Equipamentos como esse têm sido usados por vários veículos de comunicação impressos. É a maneira de sair do papel e ficar disponível no universo digital.


"Esse equipamento permite a digitalização em grande velocidade sem machucar a encadernação dos livros", afirma Pedro Puntoni, Coordenador Geral da Brasiliana. O aparelho é capaz de digitalizar até 2,4 mil páginas por hora e é controlado por um operador, que decide qual a melhor velocidade para fazer a digitalização.

Tanto no caso do jornal, quanto no caso dos livros, o material é “escaneado” e tratado por um software específico, responsável pelos ajustes visuais, como  o enquadramento das páginas. Estas imagens são tratadas e disponibilizadas em várias versões para assim atender todo tipo de internauta, independente da sua velocidade de conexão ou tamanho da tela do dispositivo.

Mas há ainda outro programa indispensável para a criação de um acervo digital: o que transforma imagem em texto. "O OCR consegue extrair texto de imagens, que na verdade são fotos das páginas. Com base nele, nós conseguimos ter um banco de dados alimentado com conteúdo textual e, a partir daí, abastecer funcionalidades muito importantes como, por exemplo, a busca", explica o CEO da Digital Pages, Youseff Mourad.

Para Pedro Putoni, a digitalização do conteúdo, nesse caso, é sinônimo de democratização. "É uma possibilidade extraordinária de acesso ao conhecimento e oportunidades pra todos", afirma. Já para Ana Busch, um dos aspectos mais importantes é a facilidade de acesso que a digitalização permite. "Você pode entrar nele e encontrar o que você quer sem ter que ficar dias em uma sala fechada fazendo pesquisa". 

Nenhum comentário:

Postar um comentário

BlogBlogs.Com.Br