Bibliotecas Digitais/Banco de Dados da Biblioteca Digital: diferenças entre revisões
[edição não verificada] | [edição não verificada] |
Conteúdo apagado Conteúdo adicionado
Criou a página com "=Mapeamento= Um mapeamento dos diversos livros, dispersos na Web, poderá ser criado na implementação da Biblioteca Digital. Alguns documentos, neste mapa, são muito imp..." Etiqueta: página grande sem wikificação |
Sem resumo de edição |
||
Linha 3:
Um mapeamento dos diversos livros, dispersos na Web, poderá ser criado na implementação da Biblioteca Digital. Alguns documentos, neste mapa, são muito importantes porque dão base para a produção de novos trabalhos. Concentrado este material, os internautas podem acessar o acervo digital e escolher seu livro preferido, por título ou autor, e poderão lê-lo quando quiserem. Tecnicamente, o banco de dados central com as informações das obras pode ser projetado através de um aplicativo ASP ou mesmo PHP, que é exatamente uma tecnologia desenvolvida para aplicações de organização de informações.
Existem alguns
*Títulos de URLs efetivamente fixas.
Linha 17:
*Manutenção de seções e subseções do acervo a partir dos dados obtidos.
*Disponibilização dos livros nas páginas da Biblioteca na Internet.
=Digitalização de Conteúdo=
Na implementação e na posterior manutenção do banco de dados de livros, os procedimentos contam com os processos de digitalização de obras. Neste momento, poderão ser consideradas propícias à digitalização as obras ainda não disponíveis na Web ou que se encontram em Domínio Público. Com o auxílio de ''scanners'' com capacidade de captura de imagens de alta resolução, e softwares de OCR, documentos e obras consideradas importantes poderão ser resgatados e estarão disponíveis para diversas pessoas através do acervo.
A seguir, descrevemos 10 etapas básicas que devem ser levadas em consideração na hora de digitalizar um documento.
#'''Preparação do Documento:''' A preparação do documento consiste em organizar pilhas e se antever a detalhes de corte, ordem, inclinação do documento, assim como sujeiras etc.
#'''Digitalização:''' Com o ADF [Alimentador Automático de Documento] em caso de documentos inteiros; ou na superfície do ''scanner'', em caso de imagens separadas ou páginas avulsas. Se for realmente necessária a utilização do ADF, deve-se sempre acompanhar e verificar o trabalho no ''scanner'' e do software, durante o processo.
#'''Segmentação de Áreas na Página:''' Escolher áreas da página para processamento específico: zonas de texto, imagem e numérica. No software PageGenie, por exemplo, pode-se identificar zonas de texto, imagem e zonas numéricas. Isto pode ser feito no estágio Select.
#'''Aperfeiçoamento de Imagem:''' Corrigir manchas, eliminar pontos, definir limites. Imagens digitalizadas para fazer OCR, devem ser distintas de imagens capturadas para serem figuras e ilustrações.
#'''Processamento de OCR:''' No software de OCR atentar-se aos detalhes de fontes, dicionário etc. Após digitalizar as páginas, faz-se o processo de OCR com um número pequeno de lotes. Pode ser 20 páginas por vez.
#'''Controle de Qualidade:''' Editar e limpar a saídas de OCR. Se o documento estiver ilegível ou invertido, deverá ser feita uma nova digitalização.
#'''Alteração de Trabalho:''' Modificar ordem em que os documentos são processados: par e ímpar; ou trabalho com texto e imagens. Como alguns ADF´s não trabalham capturando duas páginas ao mesmo tempo [frente e verso], quando terminar a digitalização de páginas ímpares, basta que se vire o conjunto e recomece a digitalização.
#'''Gerenciamento de Lotes:''' Controlar pilhas de documentos em processo: papel e eletrônico. Cria-se uma pasta com o nome do livro, para armazenar os arquivos digitalizados lá dentro.
#'''Monitoração do Trabalho:''' Controlar documentos em cada etapa. A visão de monitoramento de cada etapa do processo, deve estar ligada à visão geral de todo o processo.
#'''Status de Trabalho:''' Visão geral de todos os trabalhos no sistema. Em síntese, o manipulador deve controlar e gerenciar cada passo de seu trabalho, fazendo uma avaliação no final para aperfeiçoá-lo.
=Considerações Gerais Sobre a Digitalização=
==Timing==
Leva-se, em média, uma hora para compreender uma configuração nova para um livro a ser digitalizado. A digitalização é simples, uma vez que se tenha o alimentador automático de documentos; dela vai depender um bom reconhecimento de caracteres pelo aplicativo. Estima-se 1 hora para cada 80 páginas. Isto em um processo caseiro e não industrial.
O reconhecimento não é o último passo na digitalização, mas requer esforço de concentração. Estima-se uma hora para cada 30 páginas reconhecidas. No processo geral, seriam 10% do tempo para configuração, 30% para digitalização e 50% do tempo despendido para OCR, se o livro tiver 100 páginas. A revisão e rediagramação não estão previstas neste processo.
==Índice de Erros/Acertos no OCR==
O índice de acertos no reconhecimento de caracteres num aplicativo como o PageGenie é de 98,70%. Significa que de cada 100 palavras, cinco ou mais, não serão reconhecido adequadamente pelo software.
Os erros mais comuns no reconhecimento são: trocar o ~ pelo ^ ou pelo ´; trocar í por t ou f; trocar m por rn; trocar o O pelo zero; o ó pelo 6; e, às vezes, os mesmos exemplos ao contrário.
Os erros nos artigos “o” e no adjetivo “se”, são os que mais aparecem durante o processo de OCR. Para otimizar a correção e minimizar erros, basta acrescentá-los no dicionário e pedir para o aplicativo corrigir para todo o documento. Isto vale para as demais palavras que aparecerem não conhecidas pelo dicionário, no documento.
|