SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Downloaden Sie, um offline zu lesen
ARTIGOS



                                                Estudo comparativo
                                                entre sistemáticas de
                                                digitalização de
                                                documentos:
                                                formatos HTML e PDF
André Raabe                                     INTRODUÇÃO                                   a digitalização de documentos e sua
Omer Pohlmann Filho                                                                          disponibilização por meio da Internet.
                                                A Pontifícia Universidade Católica do
                                                Rio Grande do Sul (PUCRS), median-           Para tanto, o Laboratório de Biblioteca
                                                te convênio com a IBM, participa do          Digital voltou-se inicialmente para a
                                                projeto IBM Global Campus, que prevê         pesquisa de software e desenvolvimen-
                                                a colaboração entre instituições de en-      to de sistemáticas para a captura e
                                                sino superior de diferentes países, no       transformação de documentos do for-
                                                sentido de pesquisar e desenvolver           mato tradicional (papel), para o forma-
                                                políticas, abordagens, metodologias e        to digital. Foram avaliadas duas siste-
                                                recursos tecnológicos para projetar e        máticas distintas para realização do tra-
                                                implantar universidades com campus           balho, uma delas baseada no reconhe-
                                                de abrangência global.                       cimento ótico dos caracteres e conver-
                                                                                             são para HTML detalhada em (Pohl-
                                                A proposta de trabalho do projeto Cam-       mann 1); a outra baseada no formato
                                                pus Global PUCRS visa a desenvolver          digital Portable Document Format
                                                estudos sobre universidade virtual, cen-     (PDF).
                                                trando seu foco de atenção em pesqui-
Resumo
                                                sas sobre metodologias e recursos tec-       DIRETRIZES DE TRABALHO
                                                nológicos na área de educação à dis-
Este artigo apresenta o resultado de            tância. Neste contexto, trabalha-se com      Dentre as alternativas pesquisadas
experimentos realizados pelo Laboratório de
Biblioteca Digital da PUCRS voltados para a     o conceito de Educação à Distância           para o processo de digitalização de
captura e conversão de documentos a partir      (EAD), como uma forma de educação            documentos, avaliaram-se duas diretri-
do formato tradicional (papel) para o formato   na qual alunos e professores se encon-       zes genéricas:
digital. São apresentadas e avaliadas as        tram separados fisicamente, sendo o
principais etapas envolvidas no processo de
digitalização utilizando duas sistemáticas      processo de interação multidirecional,       1. digitalização da obra como imagens
diferentes: uma baseada na conversão para       apoiado por tecnologia de comunica-          e conversão destas em textos median-
HTML; a outra baseada na geração de             ção, em que o aluno é o protagonista         te reconhecimento óptico de caracte-
arquivos PDF usados pelo software Adobe         de seu aprendizado e o professor um          res (OCR);
Acrobat Reader.
São abordados também fatores essenciais         facilitador deste.
aos trabalhos de digitalização tais como                                                     2. criação de arquivos de imagens
tecnologias de Reconhecimento Óptico dos        Tendo em vista esta proposta, o proje-       (JPG), contendo as páginas da obra e
Caracteres (OCR) e avaliação das                to Campus Global foi estruturado a par-      mantendo o leiaute original da publica-
características do acervo a ser digitalizado.
                                                tir de quatro frentes de pesquisa, a sa-     ção, sem conversão para texto.
Por fim, é realizado um comparativo entre as
duas sistemática estudadas, apontando           ber, educação à distância e colaborati-
pontos positivos e negativos que devem ser      va, bibliotecas digitais, trabalho coope-    A escolha do formato de arquivo JPG
considerados na escolha de uma diretriz de      rativo, gerência de recursos Internet.       deveu-se ao fato de este possuir uma
trabalho.                                                                                    alta taxa de compressão, permitindo o
Palavras-chave                                  Neste contexto, o Laboratório de Biblio-     armazenamento de imagens com qua-
                                                teca Digital vem pesquisando o desen-        lidade em arquivos de tamanhos redu-
Conversão de documentos do formato              volvimento de tecnologias para permi-        zidos, sendo, por este motivo, ampla-
tradicional para o digital; Sistemáticas de                                                  mente utilizado na rede Internet.
conversão para HTML; Geração de arquivos
                                                tir o acesso a informações de conteú-
PDF; Tecnologias de reconhecimento óptico       do bibliográfico à distância. Uma das
dos caracteres.                                 alternativas pesquisadas aponta para


300                                                                              Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Para exemplificar a relação entre for-            FIGURA 1                                       FIGURA 2
mato de arquivo e espaço de armaze-
nagem, foi realizado um teste compa-
rativo permitindo verificar a relação en-
tre os tamanhos dos arquivos gerados
no contexto estudado – digitalização de
documentos a partir do formato papel.
É importante salientar que foram utili-
zadas rigorosamente as mesmas con-
figurações de compressão e qualidade
disponíveis em formatos de arquivos
como o JPG e GIF.

No teste, foram utilizadas uma página
do livro História da PUCRS ilustrada na
figura 1, por esta ser composta de ima-
gem e texto sem cores, e a capa da
mesma obra, por ser colorida, figura 2.

A tabela 1 apresenta, a seguir, os re-
sultados do teste comparativo conside-
rando os formatos de arquivos de ima-
gens mais utilizados.

Para avaliar as vantagens e desvanta-
                                                  Páginas utilizada como teste comparativo
gens relacionadas a cada uma das di-
retrizes estudadas (conversão para tex-
to e disponibilização como imagem),               TABELA 1
tomou-se como base (Haigh2 ), que con-            Comparativo entre os tamanhos de arquivo
sidera, para a escolha do processo de
digitalização, os seguintes pontos:               Formato do Arquivo                             Pagina P&B            Capa (reduzida)
                                                                                             11,50 cm X 17,80 cm     7,14 cm X 10,68 cm
• necessidade de reutilização, edição
ou reformatação do texto;
                                                  JPG (Joint Picture Experts Group)                 34 Kb                   16 Kb
• disponibilidade do texto para pesqui-           TIF (Tagged Image File)                           74 Kb                   43 Kb
sas full-text ;                                   GIF (Graphics Interchange Format)                 76 Kb                   40 Kb
                                                  PDF (Portable Document Format)                   76 Kb                   34 Kb
• posterior codificação do texto no for-          PSD (PhotoShop)                                   82 Kb                   62 Kb
mato HTML;                                        PCX (Zsoft Paintbrush)                            97 Kb                   64 Kb
                                                  BMP (Windows Bitmap)                             280 Kb                   60 Kb
• recursos disponíveis para realização
                                                  WMF (Windows Meta File)                          282 Kb                   61 Kb
do processo;
                                                  EPS (Encapsuled Post Script)                     573 Kb                  135 Kb
• tamanho dos arquivos para armaze-
nagem e transmissão.                              – necessita pouco espaço para arma-            No contexto geral do projeto, a realiza-
                                                  zenagem das obras digitalizadas.               ção de pesquisa full-text se faz ne-
Pela análise realizada, chegou-se às                                                             cessária e é um objetivo a ser alcança-
seguintes conclusões sobre cada um                • Disponibilização como imagem:                do. Além disso, outro fator determinan-
dos processos:                                                                                   te a favor da conversão para texto é
                                                  – impossibilidade de edição e manipu-          que a velocidade de transmissão de
• Com conversão para texto:                       lação do texto das obras;                      dados no Brasil ainda não atinge os
                                                                                                 padrões desejados para transferência
– possibilidade de edição e manipula-             – impossibilidade de realização de pes-
                                                                                                 de arquivos de imagem. No caso dos
ção do texto das obras;                           quisas full-text ;
                                                                                                 arquivos texto, a velocidade de trans-
                                                  – processo de digitalização simplifica-        missão não é um fator crítico, pois es-
– possibilidade de realização de pes-                                                            tes possuem tamanho bem inferior.
quisas full-text;                                 do e rápido;

                                                  – ocupa grande espaço para armaze-
– processo de digitalização é demora-
                                                  nagem da obra digitalizada (aproxima-
do e trabalhoso;
                                                  damente 20 vezes mais que textos).


Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998                                                                         301
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Portanto, decidiu-se proceder inicial-         FIGURA 3
mente à digitalização de obras me-             Representação Esquemática do Processo de Digitalização HTML
diante o reconhecimento ótico dos ca-
racteres (OCR) e posterior transforma-               D i g i t a li z a ç ã o d o t e x t o e T r a n s f o r m a ç ã o e m a r q u iv o H T M L
ção no formato HTML.                                                1                                           2
                                                       C a p tu ra d e Im a g e m
                                                              d o s te x to s                                OCR
SISTEMÁTICA DE DIGITALIZAÇÃO
HTML                                                      O m n i P a g e 5 .0                        O m n i P a g e 5 .0

                                                                                             3
Para realização dos trabalhos voltados                    4                                       R e v is ã o e C o rre ç ã o                   A rq u i v o
                                                                                                           d o t e x to                           T e x to
à definição de uma sistemática de cap-                   C o n v e rsã o p a r a
tura e conversão de documentos para                            HTM L                                   M S - W o r d 6 .0                         .D O C
o formato HTML, foi utilizado como                    N etsc ape C om po s er
instrumento de testes a publicação da
Faculdade de Medicina da PUCRS
denominada Acta Médica Volume 1.                                                                     A rq u i v o
                                                                                                     HTM L
Os trabalhos foram realizados median-
te os recursos disponíveis, ou seja,                                                                  .H T M
scanner HP Scanjet II, software de
OCR (Reconhecimento Ótico de Carac-
teres) OmniPage Pro 5.0, editor de                                                                                                 In se r çã o d e Im a g e n s n o
textos MS- Word 6.0 e o conjunto de                C o m p o siçã o                                                                  te x to c o m c o n v e r s ã o
                                                     F in a l d a                        O b ra                                         a u t o m á t ic a p a r a
softwares do Netscape Communicator                                                      D ig ita l                                         fo r m a to J P G
4.0 (Pohlmann1 ).                                  O b r a D i g it a l
                                                                                                                                    N etsc ape C om po s er
                                                                                         .H T M

Inicialmente, são apresentadas as prin-
cipais características das Actas Médi-
                                                    D i g i t a li z a ç ã o d e F i g u r a s
cas, para que se possa ter uma idéia
do contexto estudado e da adequação                        C a p tu ra d e Im a g e m
dos recursos utilizados.                                         d a s fig u ra s                                                 A rq u i v o
                                                                                                                                 de I m ag em
                                                                 D e s k S c a n II
Como um compilado de artigos de alu-                                                                                                .B M P
nos (trabalhos de conclusão), estas
publicações começaram a ser editadas
em 1977. Em sua maioria, são docu-             – notas de rodapé;                                           4) conversão para formato HTML.
mentos antigos que precisam passar
pela função de criação e captura, ou           – subdivisão de itens por meio de cha-                       A descrição detalhada de cada uma
seja, conforme (Pohlmann1 ) são docu-          ves;                                                         destas etapas pode ser vista no ende-
mentos que têm de ser necessariamen-                                                                        reço
te digitalizados.                              – manchas de tinta e falhas na impres-
                                               são;                                                         http://www.cglobal.pucrs.br/
O objeto inicial desta pesquisa foi a pri-                                                                  bibdigital/artigos/art3.htm.
meira edição da Acta Médica, editada           – textos e figuras somente na cor preta
em 1977. Este documento possui um              ou tons de cinza.                                            Para cada capítulo do livro, foi criado
leiaute de texto complexo contendo:                                                                         um arquivo HTML diferente para facili-
                                               Descrição do Processo de                                     tar a posterior ligação com indexado-
– texto dividido em duas colunas;              Digitalização                                                res, hiperlinks e softwares de gerência
                                                                                                            de bibliotecas.
– tamanho de letra muito pequeno               O objetivo do processo foi a transfor-
(aproximadamente tamanho times new             mação da obra para formato digital e                         O espaço total em disco, ocupado pe-
roman 10);                                     sua publicação em formato HTML. Para                         los 16 capítulos digitalizados, conten-
                                               tanto, dividiu-se o trabalho em quatro                       do 241 páginas de texto e 72 figuras,
– fórmulas matemáticas manuscritas             etapas:                                                      foi de 2,41 megabytes , comprovando
em meio ao texto;                                                                                           eficiência em termos de economia de
                                               1) leitura ótica das páginas da obra;                        espaço de armazenagem e conseqüen-
– seqüência de texto não linear (em al-                                                                     te agilidade no acesso aos documen-
guns capítulos, o texto inicia pela colu-      2) reconhecimento do texto por meio                          tos full-text, via Internet.
na da direita);                                de software de OCR;
                                                                                                            Um resumo deste processo é apre-
– figuras e imagens;                           3) revisão e correção do texto por inter-                    sentado, acima, esquematicamente, na
                                               médio de editor de texto; (MS-Word 6.0);                     figura 3.


302                                                                                       Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Na tabela 2 são apresentados também               TABELA 2
os tempos médios verificados na exe-              Tempos médios para realização das etapas
cução de cada uma destas etapas. Os
tempos apresentados são para um nú-
                                                  ETAPAS                                                                      TEMPO MÉDIO
mero padrão de 50 páginas e 12 figu-
ras.                                              Captura das imagens dos textos e execução
                                                  do programa de reconhecimento ótico de                                        65 minutos
Busca de melhores resultados no                   caracteres – OCR (com a criação do arquivo texto)
OCR
                                                  Revisão e correção do texto                                                   400 minutos
A elaboração da sistemática HTML foi
feita com a utilização do software de             Conversão dos arquivos texto para arquivos HTML                               15 minutos
OCR Omni Page Pro 5.0. Os resulta-
                                                  Captura de imagens e criação de arquivos BMP                                  20 minutos
dos deste experimento apontaram um
tempo total de conversão muito alto,              Inserção de imagens no texto e composição final da obra                       10 minutos
principalmente pela necessidade de
realização de uma revisão e correção              Tempo médio para transformação de um texto de
meticulosa dos erros gerados pelo pro-            50 páginas, com 12 figuras, do formato convencional                          510 minutos
cesso de reconhecimento óptico dos                (em papel), para o formato digital, segundo a                             (aprox. 8,5 horas)
caracteres (OCR).                                 sistemática proposta

Dando continuidade ao trabalho, dese-             Observação: Cumpre salientar que estes tempos foram estimados contando com a participação de
java-se verificar a utilização de uma             duas pessoas para sua realização. Obviamente, quanto maior a equipe, menor o tempo consumi-
versão mais atual do software, o Omni             do. Também os recursos de hardware utilizados, principalmente o scanner que não possuía
Page Pro 8.0, a fim de identificar me-            recurso ADF (Automatic Document Feeder), não são os recomendados para este tipo de trabalho.
                                                  A utilização de recursos mais apropriados tende a melhorar as performances observadas, princi-
lhorias no processo de reconheci-                 palmente nas etapas de captura de imagens, revisão e correção de texto, que são críticas neste
mento de caracteres que reduzissem                processo.
o trabalho de revisão e correção a
patamares aceitáveis, dentro do esco-             Outra característica a ser salientada é         Após realizado o processo, os arquivos
po de um projeto de digitalização em              a alta qualidade (qualidade laser) de           de saída contento o texto reconhecido
larga escala.                                     impressão do informativo, bem como a            pelo OCR foram salvos no formato
                                                  utilização de fontes padrão (arial), o          DOC do MS-Word 6.0, por ser comum
Para realização deste trabalho compa-             que, segundo (Caere3), levaria o Omni           a ambas as versões e permitir a utiliza-
rativo, escolheu-se um informativo de             Page Pro 8.0 a atingir uma taxa de acer-        ção de um dicionário ortográfico comum
publicação interna na PUCRS chama-                to no reconhecimento dos caracteres             na detecção dos erros de reconheci-
do “PUCRS Informação”. O mesmo foi                superior a 99%.                                 mento dos caracteres. A comparação
escolhido por possuir uma diagrama-                                                               entre as taxas de reconhecimento atin-
ção elaborada, com fotos e textos dis-            O “PUCRS Informação”, composto de               gidas pelas versões 5.0 e 8.0 do Omni-
tribuídos de forma não-linear, permitin-          20 páginas, foi digitalizado e armaze-          page Pro partiu de uma análise destes
do a comparação entre os procedimen-              nado como imagem para posterior re-             arquivos.
tos de definição automática das zonas             conhecimento dos caracteres e zonas
de texto de ambas as versões do                   de texto em ambas as versões do Om-             Realizou-se a contagem do número to-
OmniPage Pro.                                     niPage. Para tanto, foi utilizado o Omni        tal de palavras na obra. A seguir, reali-
                                                  Page Pro 5.0 e um scanner de mesas              zou-se a contagem das palavras que
O processo de definição de zonas                  HP Scanjet II, gerando um arquivo de            possuíam incorreções na grafia origi-
de texto pode ser realizado de for-               saída no formato proprietário MET con-          nadas por um erro no reconhecimento
ma manual, conforme descrito em                   tendo as 20 páginas digitalizadas. Este         dos caracteres. De posse deste valo-
(Pohlmann1), produzindo um resultado              arquivo foi aberto em ambas as versões          res, calculou-se o percentual de acer-
melhor em termos de fidelidade ao                 5.0 e 8.0, onde foi realizado o reconhe-        tos atingido pelo reconhecimento dos
leiaute da obra original, no entanto              cimento óptico dos caracteres (OCR)             caracteres em ambas as versões. Cum-
esta atividade envolve muita intera-              e a definição automática das zonas de           pre salientar que os dados obtidos re-
ção do usuário tornando o processo                texto, uma vez que ambas as versões             lacionados à taxa de reconhecimento
lento. A utilização da definição auto-            possuem esses recursos.                         do processo de OCR consideraram as
mática das zonas do texto é uma ten-                                                              20 páginas do informativo na íntegra.
tativa de reproduzir o leiaute da obra                                                            A tabela 3, a seguir, ilustra os resulta-
original sem a interação do usuário.                                                              dos obtidos.
No entanto, os resultados ficam
aquém dos esperados.




Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998                                                                                303
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Concluiu-se que a utilização de uma            TABELA 3
versão mais atual do software Omni             Comparativo dos resultados do OCR
Page Pro não promoveu significativa
melhoria nos resultados do processo de                            Total de palavras            Palavras com erro                Taxa de
reconhecimento dos caracteres que pu-                                                                                       reconhecimento
desse acelerar significativamente os
trabalhos de digitalização de um acer-         Versão 5.0                4833*                         308                       93,6%
vo em larga escala, uma vez que a ne-          Versão 8.0                4785                          168                       96,5%
cessidade de revisão do texto perma-
                                               * A diferença observada no número total de palavras deve-se ao fato de a versão 5.0 dividir algu-
neceu necessária.                              mas palavras ao meio, gerando duas novas.

Diretrizes para busca de uma nova
sistemática                                    A integração de dicionários ortográficos          Aliado a estes fatores, pode-se mencio-
                                               ao processo de reconhecimento dos                 nar também o fato de que a maioria das
Segundo (Haigh2), a taxa de reconhe-           caracteres, como o procede o Omni-                obras é composta não somente de tex-
cimento de um OCR para conversão de            Page Pro, auxilia a identificação das             tos. Também contêm figuras, fórmulas
documentos deve ser superior a 98%.            palavras consideradas suspeitas. No               e esquemas gráficos cujos softwares
Caso contrário, é mais eficiente reali-        entanto, dada a impossibilidade de se             de OCR atuais não oferecem um trata-
zar a redigitação do documento.                construir um dicionário eletrônico que            mento adequado, sendo necessária a
                                               abranja todos os termos técnicos es-              utilização de um outro software para
Esta taxa de reconhecimento é medi-            pecíficos de cada área, nos diversos              captura das imagens e posterior inte-
da considerando o número de edições            idiomas contemplados pelo acervo da               gração. Tal procedimento exige muita
necessárias (inserções, deleções,              biblioteca da PUCRS, persiste a neces-            interação do usuário e torna o tempo
substituições) diante do número total de       sidade de realização de uma leitura               de digitalização de uma obra muito alto,
caracteres. Recomenda-se, no entan-            cuidadosa, pois uma palavra assinala-             considerando a amplitude do trabalho
to, que este dado não seja utilizado           da como suspeita pode estar correta ou            desejado.
como referência para trabalhos de di-          não.
gitalização em larga escala, pois des-                                                           Tais informações levaram os pesquisa-
considera todo o trabalho de localiza-         Como um agravante, muitas das obras               dores do laboratório de biblioteca digi-
ção de erros no texto, que muitas ve-          do acervo da Biblioteca Central da PU-            tal da PUCRS a buscar outras alterna-
zes demanda uma leitura completa da            CRS (aproximadamente 300 mil obras)               tivas de digitalização que envolvessem
obra. Além disso, quando o vocabulá-           não apresentam um estado de conser-               menor interação do usuário, viabilizan-
rio utilizado é eminentemente técnico,         vação adequado à realização da digi-              do a realização do trabalho em larga
pode ser necessária a confrontação             talização por meio de softwares de                escala.
com a obra original em papel, para iden-       OCR, tais como:
tificação da grafia correta de uma pala-                                                         Desta forma, iniciou-se o trabalho de
vra.                                           • obras com páginas riscadas e com                definição de uma nova sistemática de
                                               anotações a lápis e a caneta;                     digitalização utilizando o software da
O que deve ser considerado efetiva-                                                              empresa Adobe, denominado Adobe
mente é o volume de tempo despendi-            • obras com papéis com gramatura mui-             Acrobat. Este software foi cedido pela
do por um usuário, ao realizar a corre-        to fina (50 gr/m²), fazendo com que o             empresa ao Laboratório de Biblioteca
ção/conferência de um texto reconhe-           texto de um lado da página seja visível           Digital da PUCRS para a realização de
cido pelo OCR.                                 do outro lado;                                    testes por um período de 60 dias. Se-
                                                                                                 gundo (Adobe4), tem como caracterís-
Enquanto os software de OCR não atin-          • obras com páginas amassadas, man-               ticas:
girem uma taxa de reconhecimento de            chadas, sujas, deterioradas por mofo,
100%, será necessária meticulosa re-           traças, ou mesmo pela própria utiliza-            • facilidade de criação e publicação de
visão da obra para localização e corre-        ção.                                              documentos on-line;
ção dos erros, atividade essa que tor-
na a realização de trabalhos de digitali-      Apesar de possuir um setor específico             • mantém o leiaute original das obras
zação em larga escala altamente cus-           para recuperação do acervo, muitos                digitalizadas;
tosos, sendo necessária a utilização de        dos problemas são irrecuperáveis, e,
grandes equipes com numerosos recur-           com uma movimentação diária de 2 600              • utiliza o formato de arquivo PDF (Por-
sos para que o trabalho não se torne           empréstimos, a tendência é que tais               table Document Format), que permite
excessivamente demorado.                       problemas não sejam eliminados.                   a criação de documentos multiplatafor-
                                                                                                 ma que podem ser visualizados inclu-
                                                                                                 sive em browsers (software de nave-
                                                                                                 gação na Internet);




304                                                                                 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

• possibilidade de captura e conversão            TABELA 4
de grandes volumes de documentos                  Tempo para digitalização das obras utilizando o Scanner HP Network 5
com um baixo nível de interação do
usuário.                                          Volume 1                                  159 páginas                  16 minutos

Estas características se mostraram                Volume 2                                  295 páginas                  36 minutos
bastante adequadas ao tipo de traba-
lho que se tinha para realizar.                   Total                                     454 páginas                  52 minutos

                                                  Média: 8,73 páginas por minuto
SISTEMÁTICA PDF

Digitalização por meio da captura de              O tempo levado para digitalização dos        2) quando da aplicação do OCR nas
documentos                                        dois volumes da História da PUCRS            páginas da obra, os arquivos reduziram
                                                  está explicitado na tabela 4.                o seu tamanho em aproximadamente
Para a definição de uma sistemática de                                                         quatro vezes;
digitalização por meio da captura de do-          Um dos objetivos previstos era a pos-
cumentos utilizando o software Adobe              sibilidade de realização de pesquisas        Dado a inviabilidade de realização do
Acrobat, escolheu-se, como objeto de              full-text na obra. Para tanto, seria ne-     OCR nas páginas da História da PU-
teste, a obra história da PUCRS. Esta             cessário que as imagens digitalizadas        CRS, alguns dos objetivos traçados no
escolha deveu-se a adequação da obra              passassem por um processo de reco-           início da pesquisa precisaram ser aban-
ao trabalho que estava proposto e pela            nhecimento ótico de caracteres (OCR),        donados. Em especial a possibilidade
liberação dos direitos autorais da obra           ou seja, a transformação da imagem em        de realização de pesquisas no texto
por parte dos autores, permitindo aliar           texto.                                       desta obra.
sua disponibilização à comemoração
do cinqüentenário da universidade,                A realização de OCR em arquivos no           Neste momento, decidiu-se dar se-
ocorrida em 1998, época em que esta               formato PDF é feita pelo software            qüência ao trabalho de digitalização
pesquisa estava em andamento.                     Adobe Acrobat Exchange, o qual pos-          mantendo as páginas da obra como
                                                  sui uma interface adequada para a ta-        imagens, pois julgou-se importante ava-
A obra possui somente uma coluna de               refa, sendo possível a realização do         liar as características e o comportamen-
texto, as letras são Times New Roman              processo sobre todas as páginas de           to dos arquivos PDF contendo imagens
de tamanho 12. São encontradas foto-              uma vez só.                                  das páginas digitalizadas.
grafias e ilustrações em meio ao texto,
no entanto nenhuma utiliza cores, so-             No entanto, foi frustrante descobrir que     Partiu-se, então, para a exploração de
mente tons de cinza.                              o software em sua versão 3.01 não            recursos do formato PDF que permi-
                                                  possui dicionário para reconhecimento        tiriam aprimorar a navegabilidade e
Para digitalização da História da                 das palavras e caracteres da língua          aparência da obra, tais como a criação
PUCRS, foi utilizado o scanner HP                 portuguesa, o que inviabilizou a reali-      de links e bookmarks, a separação dos
Network Scanner 5, destacando-se                  zação do OCR e, por conseqüência, a          capítulos, a adequação do tamanho e
pela velocidade de digitalização e pela           transformação da imagem capturada            da visualização das páginas da obra.
presença de uma bandeja para entra-               via scanner em um texto.                     Estes ajustes foram realizados utilizan-
da automática de papel ADF (Automa-                                                            do o Adobe Acrobat Exchange. Uma
tic Document Feeder), apesar de su-               Apesar disso, duas características in-       descrição detalhada deste procedimen-
portar somente a digitalização de ima-            teressantes relacionadas ao OCR apli-        tos pode ser encontrada em
gens em tons de cinza, fato que não               cado pelo Acrobat Exchange devem ser         http:www.cglobal.pucrs.br
atrapalhou a definição da sistemática.            ressaltadas:                                 bibdigitalkitskit3.html.

Para a inserção das páginas da obras              1) as palavras ou conjuntos de carac-
na bandeja de entrada de papel, foi               teres não reconhecidos foram mantidos
necessário realizar um corte rente a              como imagens, de forma que a leitura
parte onde as folhas estão presas para            do texto continuou sendo possível;
que estas se soltassem. Ao final, a apli-
cação cliente do scanner gera automa-
ticamente um arquivo contendo as pá-
ginas digitalizadas como imagens, ou
seja, uma imagem para cada página,
agrupadas em um só arquivo PDF.




Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998                                                                        305
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

A seguir, será apresentado o resumo            Figura 4
esquemático do trabalho de digitaliza-         Esquema de digitalização da história da PUCRS
ção da História da PUCRS (figura 4).
                                                                    Digitalização da história da PUCRS
                                                                                     História da PUCRS
São apresentados também os tempos
médios verificados na execução de                                        Captura e manipulação das imagens
                                                                                   Manipulação das Imagens
cada uma destas etapas. Os tempos
apresentados correspondem à digitali-                          1                                                                2
zação do primeiro volume da obra, com
                                                    Captura de imagem                                                  Separação em
159 páginas (tabela 5).
                                                        dos textos                                                       capítulos
Digitalização e da conversão de
documentos                                          HP ScanJet 5 Utility                                             Acrobat exchange

Tendo em vista a inadequação do OCR,
decidiu-se pesquisar alternativas que                          3                                                                4
tornassem possível a realização de
                                                          Inserção
pesquisas full-text. Uma possibilidade                                                                               Inserção de links
encontrada foi a conversão de docu-
                                                       de bookmarks                         Arquivos
mentos já existentes no formato digital                                                                              Acrobat exchange
para o formato PDF, evitando, dessa                  Acrobat exchange
forma, a necessidade de reconheci-                                                           .PDF
mento óptico dos caracteres, uma vez
que o documento original não é gerado                          5                                                                6
mediante a captura de imagens com
                                                        Cortes nas                                                     Configuraçã
uso de um scanner.
                                                       páginas (crop)                                                  da visão inicial
Para a realização deste novo trabalho,
foi escolhido como instrumento de tes-               Acrobat exchange                                                Acrobat exchange
tes a dissertação de mestrado do pro-
fessor Omer Pohlmann Filho, co-autor
deste artigo, pela facilidade de nego-         TABELA 5
ciação dos direitos autorais e pela ade-       Os tempos de realização das etapas do processo de digitalização
quação da obra ao trabalho proposto.
                                               ETAPAS                                                                   TEMPO MÉDIO
A dissertação em questão consiste de
um conjunto de arquivos digitais com           Captura da imagens dos textos no scanner criação dos                        16 minutos
247 páginas divididos entre textos ela-        arquivos PDF (159 páginas)
borados no Word 2.0 contendo grande
                                               Separação dos Arquivos em capítulos                                         30 minutos
número de tabelas, fórmulas e figuras,
e oito tabelas elaboradas no Excel 3.0.        Criação dos índices link no índice da obra                                 40 minutos*
Pelas características das tabelas, se-         Criação das bookmarks                                                      30 minutos*
ria muito trabalhoso realizar a conver-        Cortes nas páginas (crop)                                                  20 minutos*
são para HTML, uma vez que os recur-           Configuração da visão inicial                                                1 minuto
sos de tabela disponíveis na linguagem         Tempo médio para transformação de um texto do formato                      137 minutos
não são satisfatórios para tanto.
                                               convencional (em papel) para o formato digital, segundo a              (2 horas e 17 min.)
O trabalho de conversão consistiu na           sistemática proposta (PDF)
carga destes arquivos, por meio da uti-
                                               * Estas etapas são opcionais ao processo de digitalização e podem variar de acordo com as
lização de versões mais recentes do            características da obra.
Word e do Excel, e posterior impres-
são dos mesmos utilizando o driver de
impressão denominado Adobe PDF
Writer. Este driver se encarrega de cap-
turar a impressão e convertê-la para um
arquivo PDF.

Foi necessário agrupar estes arquivos
em um só, baseando-se na ordenação
encontrada na publicação original (em
papel).



306                                                                               Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

A conversão produziu um resultado                 FIGURA 5
considerado excelente. Sem maiores                Esquema de conversão da dissertação de mestrado
dificuldades, foi possível agrupar todas
as partes que formavam a dissertação                                Conversão da dissertação de mestrado
                                                                                 Dissertação de Mestrado
(arquivos de Word e Excel) em um                                    Documento digital na forma de texto para arquivo PDF
                                                                              Digital na forma de Texto para arquivo PDF
mesmo arquivo no formato digital, sem
preocupações maiores com as versões                            1                                 2
dos softwares utilizados.
                                                     Carga e impressão                 Captura do arquivo
A seguir, será apresentado o resumo                    do documento                       de impressão
esquemático do trabalho de conversão
da dissertação de mestrado (figura 5).                  Word / Excel                  Acrobat PDF writer

São apresentados também os tempos
médios verificados na execução de                               3                                                                  4
cada uma destas etapas (tabela 6).
                                                     Agrupamento em                                                       Configuração
COMPARATIVO ENTRE AS
                                                      um só arquivo                         Arquivos                      da visão inicial
SISTEMÁTICA APRESENTADAS
                                                     Acrobat exchange                                                   Acrobat exchange
Ao final deste trabalho, foram conside-                                                       .PDF
rados positivos os resultados obtidos
com a sistemática PDF, uma vez que,
na comparação com a sistemática                   TABELA 6
HTML pesquisada anteriormente, esta               Os tempos de realização das etapas do processo de conversão
apresentou vantagens significativas
conforme ilustra a tabela 7. Os tempos            ETAPAS                                                                    TEMPO MÉDIO
apresentados são para um número pa-
                                                  Carga e solicitação de impressão dos arquivos                               10 minutos*
drão de 50 páginas e 12 figuras.
                                                  (1 Texto em MS-Word e 8 tabelas em MS-Excel)
O principal ponto a favor da sistemáti-           Captura da Impressão e Conversão para PDF                                   10 minutos*
ca PDF é o tempo total demandado                  Agrupamento dos arquivos                                                    15 minutos*
para transformação de maneira total-              Configuração da visão inicial                                                 1 minuto
mente confiável, de uma obra em pa-               Tempo total de conversão                                                    36 minutos
pel para o formato digital. Este ponto
merece especial importância, pois tor-            * Tempos que podem variar de acordo com as características da obra.
na viável a realização do processo em
larga escala influenciando também na
                                                  TABELA 7
quantidade de recursos humanos ne-
                                                  Comparativo entre a Sistemática HTML e as Sistemáticas PDF
cessários para estruturação de um nú-
cleo para realização desta tarefa.
                                                                                      Sistemática        Sistemática          Sistemática
                        5                         Característica                         HTML           PDF – Captura       PDF – Conversão
Segundo (Pohlmann ), no contexto do
                                                                                        Captura           (imagem)               (texto)
projeto de criação de uma biblioteca
digital na PUCRS, está prevista a es-
truturação de um núcleo de digitaliza-            Mantém o leiaute original da obra   Não                     Sim                      Sim
ção de documentos. Este núcleo terá               Possibilidade de manipulação do     Sim                     Não                      Sim
por objetivo a produção de acervo digi-           texto
tal para a biblioteca digital da PUCRS,           Possibilidade de realização de      Sim                     Não                      Sim
devendo contemplar os recursos ne-                pesquisas full-text
cessários para a realização desta tare-           Espaço de armazenagem          Pequeno (texto)           Aproxim.               Aproxim.
fa incluindo hardware , software, insta-                                                                7 vezes maior          4 vezes maior
lações e recursos humanos. Tais recur-            Revisão e correção do texto           *400 min           Não há                 Não há
sos humanos receberão treinamento e               Tempo de transmissão via rede           Baixo         7 vezes maior          4 vezes maior
orientações a partir dos resultados
                                                  Tempo total aproximado de              510min             46min                  6min
apontados por esta pesquisa.
                                                  transformação de uma obra de
                                                  50 páginas e 12 figuras

                                                  * Observação: Cumpre salientar que o tempo relacionado a sistemática HTML foi determinado,
                                                  com o trabalho sendo realizado por duas pessoas. Principalmente, a etapa de revisão e correção
                                                  de texto pode ser agilizada agregando-se mais uma pessoa à equipe de trabalho.



Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998                                                                                  307
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

A seguir, apresenta-se uma sugestão            TABELA 8
de recursos mínimos necessários e os           Recursos para estruturação do núcleo
respectivos custos iniciais envolvidos
para a formação de um núcleo de digi-
                                                                     Sistemática HTML                              Sistemáticas PDF
talização de documentos. Isto visa a                                                                         (Digitalização e Conversão)
permitir a comparação entre as siste-
máticas apresentadas, levando em               Recurso         Especificação             Preço*          Especificação              Preço*
conta também a questão financeira. As
sistemáticas de digitalização e conver-                      01 Computador:                          01 Computador:
são de documentos baseadas no for-                           Pentium II 400 Mhz ,                    Pentium II 400 Mhz ,
mato PDF necessitam dos mesmos re-                           64 Mb RAM , HD 6,2                      64 Mb RAM , HD 6,2
cursos e foram, por este motivo, agru-                       Gb IDE, CD 24x,                6.158,00 Gb IDE, CD 24x,                  6.158,00
                                                             Monitor 17", Placa de                   Monitor 17", Placa de
padas na mesma coluna. Os recursos
                                                             Rede 10/100 Mbps,                       Rede 10/100 Mbps,
indicados, bem como custos envolvidos,                       Porta USB, Windows                      Porta USB, Windows
consideram a realidade da PUCRS.                             NT 4.0 WS                               NT 4.0 WS
                                               Hardware
Verifica-se que os valores diferem so-                       01 Scanner: HP                          01 Scanner: HP
mente na aquisição das licenças dos                          ScanJet 6250: conexão                   ScanJet 6250: conexão
software e ainda assim possuem valo-                         USB, Bandeja ADF,              1.598,00 USB, Bandeja ADF,                1.598,00
res aproximados. No entanto, deve-se                         Resolução 1200X                         Resolução 1200X
realizar uma comparação relevando o                          999.999 DPI                             999.999 DPI
custo relativo aos recursos humanos
                                                             01 Licença Windows          Incluída no 01 Licença Windows            Incluída no
envolvidos na realização da tarefa nas                                                                                             computador
                                                             NT 4.0                     computador NT 4.0
diferentes sistemáticas, uma vez que a         Software
principal diferença identificada foi o tem-                  01 Licença Caere                 549,00 01 Licença Adobe                   500,00
po dispendido.                                               Omni Page 8.0                           Acrobat 3.01

Utilizando o mesmo exemplo da tabela                         01 Aparelho de Ar              1.177,51 01 Aparelho de Ar                1.177,51
7, é possível verificar o custo dos re-                      Condicionado 18.000                     Condicionado 18.000
cursos humanos envolvidos. Para tan-                         btus                                    btus
to, foi calculado o valor da hora traba-
                                                             02 mesas para                    188,00 02 mesas para                      188,00
lhada do profissional considerando 160
                                                             microcomputadores                       microcomputadores
horas mensais (R$ 2.255,90 por pro-            Instalações
fissional / 160 horas/mês = R$ 14,10/                        02 luminárias de 03              100,00 02 luminárias de 03                100,00
hora por profissional)                                       lâmpadas com                            lâmpadas com
                                                             refletores                              refletores
Os pontos negativos da sistemática
PDF são menos críticos para um pro-                          02 pontos de rede                166,00 02 pontos de rede                  166,00
jeto em larga escala, tais como o espa-
ço de armazenagem, tempo de trans-                           02 cadeiras com                  156,00 02 cadeiras com                    156,00
                                                             rodízios                                rodízios
missão em rede, impossibilidade de
realização de pesquisas full-text (so-
                                               Recursos 02 Remuneração com                           02 Remuneração com
mente para o caso da captura) e mani-          Humanos Encargos Sociais                     4.511,80 Encargos Sociais                 4.511,80
pulação do texto.                                       (Bibliotecário Júnior)                       (Bibliotecário Júnior)

A possibilidade de realização de con-          Total                                       14.604,31                                14.555.31
versões de documentos já existentes
no formato digital para o formato PDF          * Os valores de referência estão em Reais, cotados na época a 1,71 em relação ao dólar americano
mostrou-se muito eficaz, em especial
pelo fato de reproduzir o conteúdo dos         TABELA 9
documentos exatamente como estes               Comparativo entre despesas com recursos humanos
seriam impressos e por facilitar a mes-
                                                                                                    Sistemática             Sistemática
clagem de documentos, constituídos de
                                                                          Sistemática              PDF – Captura          PDF – Conversão
diversos arquivos de software diferen-
                                                                         HTML Captura                (imagem)                  (texto)
tes, gerando um só arquivo PDF.
                                               Tempo dispendido              510min                    46min                     6min

                                               Cálculo                  R$ 14.10 X 8.5            R$ 14.10 X 0.76       R$ 14.10 X 0.1 horas
                                                                      horas X 2 pessoas         horas X 2 pessoas           X 2 pessoas
                                               Despesa com
                                               recursos humanos             R$ 239,70                R$ 21,43                  R$ 2,82



308                                                                                  Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Tais características indicam maior fa-            A disponibilização das obras na Inter-        Como prosseguimento deste trabalho,
cilidade de formação de um acervo con-            net será feita, em primeiro momento,          será realizado, em conjunto com a Fa-
tendo documentos recentes (que teori-             pelo software ALEPH, que gerencia a           culdade de Biologia e com o suporte
camente já existem em meio digital),              catalogação e consulta do acervo da           da Biblioteca Central, a digitalização de
possibilitando inclusive a realização de          Biblioteca Central.                           obras de formatos diversos tais como
pesquisas full-text nos arquivos que                                                            fotografias, sons, textos e imagens.
foram convertidos a partir do formato             O ALEPH possui uma interface que              Esses recursos serão utilizados para a
texto, além de favorecer a padroniza-             permite a realização de consultas pela        elaboração de materiais didáticos, ser-
ção das publicações digitais e, por con-          Internet, possibilitando aos usuários         vindo como fonte de pesquisa para a
seqüência, o posterior armazena-                  verificar a existência das obras no acer-     avaliação das características do Ado-
mento, recuperação e manipulação.                 vo, bem como a sua disponibilidade            be Acrobat Reader para suporte a es-
                                                  para empréstimo. Os recursos de pes-          tas mídias, comparando-as com a utili-
Deve-se registrar que os problemas                quisa do ALEPH baseiam primariamen-           zação da linguagem HTML para o mes-
que impõem dificuldades à realização              te em autores, títulos e assuntos, mas        mo propósito.
do OCR, sejam eles causados pelo es-              é possível realizar consultas avança-
tado de conservação do acervo, tais               das acessando qualquer informação             A continuidade deste trabalho objetiva
como manchas, amassados, riscos e                 constante no registro de cadastramen-         definir novas sistemáticas que sejam
anotações, ou ligados a ineficiência dos          to da obra. Pode-se ainda combinar di-        adequadas à digitalização de obras e
softwares de OCR para tratamento de               versos argumentos de pesquisa me-             materiais existentes nos mais diversos
características, como fórmulas mate-              diante a utilização de lógica booleana.       formatos, servindo assim para orientar
máticas, figuras, trechos manuscritos,                                                          a estruturação do núcleo de digitaliza-
letras muito pequenas ou borradas, po-            No caso de as obras já existirem no for-      ção de documentos e produção de
dem ser contornados pela digitalização            mato digital, o ALEPH fornece um link         materiais digitais de cunho didático.
utilizando a sistemática PDF. Para tan-           para acesso ao documento na íntegra,
to, basta que as obras sejam digitaliza-          permitindo assim que o usuário possa
das como imagens, e será possível                 ler a obra digital pela Internet, sem pre-
realizar a leitura das mesmas, por meio           cisar se deslocar até a biblioteca.
de um arquivo PDF, conforme a apa-
rência original no momento da digitali-           As pesquisas full-text serão realizadas
zação.                                            com recursos de pesquisa do Adobe
                                                  Acrobat Reader, uma vez que o
Neste sentido, é importante que se de-            ALEPH não consegue indexar os tex-
senvolvam ferramentas para realização             tos existentes no formato PDF. No en-
de tratamento óptico nos arquivos de              tanto, para acessar os recursos de pes-
imagens PDF, que filtrem automatica-              quisa full-text, o usuário deve realizar
mente as características indesejáveis             o download do documento (copiá-lo
– adulterações, manchas, amassados                para sua máquina) e abri-lo por meio
entre outros –, melhorando a aparên-              do Adobe Acrobat Reader, pois a con-
cia das obras.                                    sulta ao arquivo PDF realizada com
                                                  auxílio do browser não oferece o recur-
CONSIDERAÇÕES FINAIS                              so de pesquisa full-text .

Inicialmente, os trabalhos de constru-            Com o crescimento do acervo digital,
ção do acervo da Biblioteca Digital da            torna-se necessário a utilização de ou-
PUCRS serão realizados com a utiliza-             tros softwares que possuam recursos
ção do software Adobe Acrobat para di-            mais adequados à recuperação e aces-
gitalização das obras existentes no for-          so a este acervo, permitindo a utiliza-
mato tradicional (papel) e também para            ção de técnicas avançadas de pesqui-
conversão dos documentos já existen-              sa com a utilização de linguagem natu-
tes em um formato digital diferente do            ral, utilização de parâmetros fonéticos
HTML. Os documentos que já estive-                e técnicas de inteligência artificial. Para
rem no formato HTML serão mantidos,               tanto, está prevista a utilização do
pois este formato permite a realização            software IBM Digital Library, que recen-
de pesquisas full-text, possui tamanho            temente foi disponibilizado e encontra-
inferior ao PDF e atende às diretrizes            se em fase de instalação em nosso la-
definidas para este trabalho apontadas            boratório.
no item Diretrizes de Trabalho.




Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998                                                                         309
Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

                                                  REFERÊNCIAS BIBLIOGRÁFICAS

                                                  1. POHLMANN, Omer F. Campos, Márcia B.
                                                       Raabe, André L. John, Fabiana. Viera,
                                                       Sônia. Em Direção a Criação de uma
                                                       Biblioteca Digital na Pontifícia
                                                       Universidade Católica do Rio Grande do
                                                       Sul: - Uma experiência Prática. II
                                                       Seminário Internacional de Bibliotecas
                                                       associadas a UNESCO, Cienfuegos –
                                                       Cuba. 23 a 27 de maio de 1998.

                                                  2. HAIGH, Susan. Optical Character Recognition
                                                        (OCR) as a Digitization Technology.
                                                        [Citado em 10 jan. 1998]. Disponível em
                                                        WWW: [http://collection.nlc-bnc.ca/100/
                                                        201/301/netnotes/netnotes-h/
                                                        notes37.htm]

                                                  3. CAERE Corporation. A Quantum Leap in
                                                       Accuracy. [Citado em 11 jan. 1998].
                                                       Disponível    em     WWW:    [http://
                                                       www.caere.com/live/content/products/
                                                       amaretto/amaretto.htm]

                                                  4. ADOBE Acrobat 3.0 Product Information.
                                                       [Citado em 14 jul. 1998]. Disponível em
                                                       WWW: [http://www.adobe.com/prodindex/
                                                       Acrobat/prodinfo.html]

                                                  5. POHLMANN, Omer F. Raabe, André L. Direito
                                                       Autoral no Contexto de Bibliotecas
                                                       Digitais. III Congresso Internacional de
                                                       (Tele) Informática Educativa, Santa Fe –
                                                       Argentina. 14 a 17 de abril de 1999.




Comparative study between
systematics of digitisation of
documents: Formats HTML and
PDF

Abstract

This article presents the resulting experience
of Digital Library Group of PUCRS University,
for the process of capture and conversion of
existing documents from traditional format
(paper) to a digital format. The major steps of
the process are presented and evaluated
using two different systematics: one based on
HTML conversion; and other based on the
creation of PDF files for Adobe Acrobat
Reader software.
Critical issues such as Optical Character
                                                                                                   André Luís Alice Raabe
Recognition (OCR) and characteristics
evaluation of the collection to be converted
                                                                                                   Bacharel em Informática, PUCRS, 1997.
are approached also.
                                                                                                   Mestrando em Informática, PUCRS 1998.
At the end, is presented a comparative study
between the two systematics, identifying
                                                                                                   Omer Pohlmann Filho
positive and negative characteristics to be
considered for choosing a work direction.
                                                                                                   Bacharel em Administração de Empresas,
                                                                                                   PUCRS, 1979. Especialista em Análise de Sis-
Keywords
                                                                                                   temas, PUCRS, 1981. Mestre em Informática,
                                                                                                   PUCRS, 1996.
Conversion of documents from the traditional
to the digital format; Systematics of
                                                                                                   {araabe, omer}@cglobal.pucrs.br
conversion to HTML; Creation of PDF files;
OCR technologies.



310                                                                                    Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998

Weitere ähnliche Inhalte

Andere mochten auch

Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...
Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...
Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...Katcavenum
 
Turn it in: Tarefa de Peer mark (Avaliação por pares): Instrutor
Turn it in: Tarefa de Peer mark (Avaliação por pares): InstrutorTurn it in: Tarefa de Peer mark (Avaliação por pares): Instrutor
Turn it in: Tarefa de Peer mark (Avaliação por pares): InstrutorBiblioteca Unesp de Rio Claro
 
Ministério da Saúde abre nova oportunidade para municípios receberem profissi...
Ministério da Saúde abre nova oportunidade para municípios receberem profissi...Ministério da Saúde abre nova oportunidade para municípios receberem profissi...
Ministério da Saúde abre nova oportunidade para municípios receberem profissi...Ministério da Saúde
 
Redes internacionais-de-pesquisadores-e-redes-sociais-na-internet
Redes internacionais-de-pesquisadores-e-redes-sociais-na-internetRedes internacionais-de-pesquisadores-e-redes-sociais-na-internet
Redes internacionais-de-pesquisadores-e-redes-sociais-na-internetnextfiocruz
 
Palestra SNBU 2010 Prof. Murilo Bastos da Cunha
Palestra SNBU 2010 Prof. Murilo Bastos da CunhaPalestra SNBU 2010 Prof. Murilo Bastos da Cunha
Palestra SNBU 2010 Prof. Murilo Bastos da CunhaSuelybcs .
 
Regimento Interno FCE-2011
Regimento Interno FCE-2011Regimento Interno FCE-2011
Regimento Interno FCE-2011rngouveia
 
Clipping Sectes - 04.01.12
Clipping Sectes - 04.01.12Clipping Sectes - 04.01.12
Clipping Sectes - 04.01.12Sectesclip
 
Guia de Serviços do Governo Federal Brasileiro
Guia de Serviços do Governo Federal BrasileiroGuia de Serviços do Governo Federal Brasileiro
Guia de Serviços do Governo Federal BrasileiroGovBR
 
Manual de utilizacao rcgs - manual do avaliador
Manual de utilizacao   rcgs - manual do avaliadorManual de utilizacao   rcgs - manual do avaliador
Manual de utilizacao rcgs - manual do avaliadorrevistarcgs
 
7 plan de acción secretaria de gobierno 2013
7 plan de acción secretaria de gobierno 20137 plan de acción secretaria de gobierno 2013
7 plan de acción secretaria de gobierno 2013alcaldiadeheliconia
 
Conhecendo a Competência em Informação
Conhecendo a Competência em InformaçãoConhecendo a Competência em Informação
Conhecendo a Competência em InformaçãoVeraCantoia
 

Andere mochten auch (17)

Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...
Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...
Vest 2012 apostila 5 redação usp unesp enem estudo do parágrafo 2 prática de ...
 
abuso sexual
abuso sexualabuso sexual
abuso sexual
 
Dados da Pesquisa no CCH
Dados da Pesquisa no CCHDados da Pesquisa no CCH
Dados da Pesquisa no CCH
 
Turn it in: Tarefa de Peer mark (Avaliação por pares): Instrutor
Turn it in: Tarefa de Peer mark (Avaliação por pares): InstrutorTurn it in: Tarefa de Peer mark (Avaliação por pares): Instrutor
Turn it in: Tarefa de Peer mark (Avaliação por pares): Instrutor
 
Ministério da Saúde abre nova oportunidade para municípios receberem profissi...
Ministério da Saúde abre nova oportunidade para municípios receberem profissi...Ministério da Saúde abre nova oportunidade para municípios receberem profissi...
Ministério da Saúde abre nova oportunidade para municípios receberem profissi...
 
Aprend Si
Aprend SiAprend Si
Aprend Si
 
Redes internacionais-de-pesquisadores-e-redes-sociais-na-internet
Redes internacionais-de-pesquisadores-e-redes-sociais-na-internetRedes internacionais-de-pesquisadores-e-redes-sociais-na-internet
Redes internacionais-de-pesquisadores-e-redes-sociais-na-internet
 
LAÍS LOG MB
LAÍS LOG MBLAÍS LOG MB
LAÍS LOG MB
 
Palestra SNBU 2010 Prof. Murilo Bastos da Cunha
Palestra SNBU 2010 Prof. Murilo Bastos da CunhaPalestra SNBU 2010 Prof. Murilo Bastos da Cunha
Palestra SNBU 2010 Prof. Murilo Bastos da Cunha
 
Regimento Interno FCE-2011
Regimento Interno FCE-2011Regimento Interno FCE-2011
Regimento Interno FCE-2011
 
TV Cabo Branco digital
TV Cabo Branco digitalTV Cabo Branco digital
TV Cabo Branco digital
 
Clipping Sectes - 04.01.12
Clipping Sectes - 04.01.12Clipping Sectes - 04.01.12
Clipping Sectes - 04.01.12
 
Guia de Serviços do Governo Federal Brasileiro
Guia de Serviços do Governo Federal BrasileiroGuia de Serviços do Governo Federal Brasileiro
Guia de Serviços do Governo Federal Brasileiro
 
Manual de utilizacao rcgs - manual do avaliador
Manual de utilizacao   rcgs - manual do avaliadorManual de utilizacao   rcgs - manual do avaliador
Manual de utilizacao rcgs - manual do avaliador
 
7 plan de acción secretaria de gobierno 2013
7 plan de acción secretaria de gobierno 20137 plan de acción secretaria de gobierno 2013
7 plan de acción secretaria de gobierno 2013
 
Bondia Lleida 23032012
Bondia Lleida 23032012Bondia Lleida 23032012
Bondia Lleida 23032012
 
Conhecendo a Competência em Informação
Conhecendo a Competência em InformaçãoConhecendo a Competência em Informação
Conhecendo a Competência em Informação
 

Ähnlich wie Marcelo correa

Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Mauricio Cesar Santos da Purificação
 
Artigo do curso de analise e desenvolvimento de sistemas
Artigo do curso de analise e desenvolvimento de sistemasArtigo do curso de analise e desenvolvimento de sistemas
Artigo do curso de analise e desenvolvimento de sistemasDaniel André Costa
 
Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...
Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...
Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...Antonio Chimuzu
 
Análise Comparativa de Persistência de Dados Entre Hibernate e NHibernate
Análise Comparativa de Persistência de Dados Entre Hibernate e NHibernateAnálise Comparativa de Persistência de Dados Entre Hibernate e NHibernate
Análise Comparativa de Persistência de Dados Entre Hibernate e NHibernateRicardo Rinco
 
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...DouglasAmmirantedaCu
 
Curso PMIP - Project Management Information Professional em Alphaville - Unil...
Curso PMIP - Project Management Information Professional em Alphaville - Unil...Curso PMIP - Project Management Information Professional em Alphaville - Unil...
Curso PMIP - Project Management Information Professional em Alphaville - Unil...Grupo Treinar
 
Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...
Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...
Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...Grupo Treinar
 
Portal de Busca Integrada USP
Portal de Busca Integrada USPPortal de Busca Integrada USP
Portal de Busca Integrada USPAnderson Santana
 
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACEAnálise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACEElvis Fusco
 
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...Elvis Fusco
 
Laboratório Web 2013-2014 - Apresentação Unidade Curricular
Laboratório Web 2013-2014 - Apresentação Unidade CurricularLaboratório Web 2013-2014 - Apresentação Unidade Curricular
Laboratório Web 2013-2014 - Apresentação Unidade CurricularRicardo Pereira Rodrigues
 
Guia apcis fornecedores bibliotecas
Guia apcis fornecedores bibliotecasGuia apcis fornecedores bibliotecas
Guia apcis fornecedores bibliotecasAPCIS/RJ
 
Workshop Empregabilidade CI
Workshop Empregabilidade CIWorkshop Empregabilidade CI
Workshop Empregabilidade CIMarta Antunes
 
Trabalho Inglês Técnico.
Trabalho Inglês Técnico.Trabalho Inglês Técnico.
Trabalho Inglês Técnico.Lucas Lopes
 

Ähnlich wie Marcelo correa (20)

Pré projeto de metodologia
Pré projeto de metodologiaPré projeto de metodologia
Pré projeto de metodologia
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
 
Artigo do curso de analise e desenvolvimento de sistemas
Artigo do curso de analise e desenvolvimento de sistemasArtigo do curso de analise e desenvolvimento de sistemas
Artigo do curso de analise e desenvolvimento de sistemas
 
Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...
Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...
Projecto de Desenvolvimento de Repositório Aberto Multimédia linguístico da L...
 
Análise Comparativa de Persistência de Dados Entre Hibernate e NHibernate
Análise Comparativa de Persistência de Dados Entre Hibernate e NHibernateAnálise Comparativa de Persistência de Dados Entre Hibernate e NHibernate
Análise Comparativa de Persistência de Dados Entre Hibernate e NHibernate
 
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
Servidor com processamento paralelo utilizando CUDA aplicado em uma urna elet...
 
Projeto ely
Projeto elyProjeto ely
Projeto ely
 
Curso PMIP - Project Management Information Professional em Alphaville - Unil...
Curso PMIP - Project Management Information Professional em Alphaville - Unil...Curso PMIP - Project Management Information Professional em Alphaville - Unil...
Curso PMIP - Project Management Information Professional em Alphaville - Unil...
 
Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...
Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...
Curso PMIP - Project Management Information Professional em Sao Paulo - Unilo...
 
Portal de Busca Integrada USP
Portal de Busca Integrada USPPortal de Busca Integrada USP
Portal de Busca Integrada USP
 
Avaliação I.docx
Avaliação I.docxAvaliação I.docx
Avaliação I.docx
 
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACEAnálise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
 
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
A modelagem de dados no processo da catalogação sob a perspectiva do uso dos ...
 
portfolio unopar
portfolio unoparportfolio unopar
portfolio unopar
 
Laboratório Web 2013-2014 - Apresentação Unidade Curricular
Laboratório Web 2013-2014 - Apresentação Unidade CurricularLaboratório Web 2013-2014 - Apresentação Unidade Curricular
Laboratório Web 2013-2014 - Apresentação Unidade Curricular
 
Slide pim 3 redess
Slide pim 3 redessSlide pim 3 redess
Slide pim 3 redess
 
Guia apcis fornecedores bibliotecas
Guia apcis fornecedores bibliotecasGuia apcis fornecedores bibliotecas
Guia apcis fornecedores bibliotecas
 
Workshop Empregabilidade CI
Workshop Empregabilidade CIWorkshop Empregabilidade CI
Workshop Empregabilidade CI
 
18 plat corisco
18 plat corisco18 plat corisco
18 plat corisco
 
Trabalho Inglês Técnico.
Trabalho Inglês Técnico.Trabalho Inglês Técnico.
Trabalho Inglês Técnico.
 

Kürzlich hochgeladen

Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuisKitota
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfSamaraLunas
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 

Kürzlich hochgeladen (8)

Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 

Marcelo correa

  • 1. ARTIGOS Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF André Raabe INTRODUÇÃO a digitalização de documentos e sua Omer Pohlmann Filho disponibilização por meio da Internet. A Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), median- Para tanto, o Laboratório de Biblioteca te convênio com a IBM, participa do Digital voltou-se inicialmente para a projeto IBM Global Campus, que prevê pesquisa de software e desenvolvimen- a colaboração entre instituições de en- to de sistemáticas para a captura e sino superior de diferentes países, no transformação de documentos do for- sentido de pesquisar e desenvolver mato tradicional (papel), para o forma- políticas, abordagens, metodologias e to digital. Foram avaliadas duas siste- recursos tecnológicos para projetar e máticas distintas para realização do tra- implantar universidades com campus balho, uma delas baseada no reconhe- de abrangência global. cimento ótico dos caracteres e conver- são para HTML detalhada em (Pohl- A proposta de trabalho do projeto Cam- mann 1); a outra baseada no formato pus Global PUCRS visa a desenvolver digital Portable Document Format estudos sobre universidade virtual, cen- (PDF). trando seu foco de atenção em pesqui- Resumo sas sobre metodologias e recursos tec- DIRETRIZES DE TRABALHO nológicos na área de educação à dis- Este artigo apresenta o resultado de tância. Neste contexto, trabalha-se com Dentre as alternativas pesquisadas experimentos realizados pelo Laboratório de Biblioteca Digital da PUCRS voltados para a o conceito de Educação à Distância para o processo de digitalização de captura e conversão de documentos a partir (EAD), como uma forma de educação documentos, avaliaram-se duas diretri- do formato tradicional (papel) para o formato na qual alunos e professores se encon- zes genéricas: digital. São apresentadas e avaliadas as tram separados fisicamente, sendo o principais etapas envolvidas no processo de digitalização utilizando duas sistemáticas processo de interação multidirecional, 1. digitalização da obra como imagens diferentes: uma baseada na conversão para apoiado por tecnologia de comunica- e conversão destas em textos median- HTML; a outra baseada na geração de ção, em que o aluno é o protagonista te reconhecimento óptico de caracte- arquivos PDF usados pelo software Adobe de seu aprendizado e o professor um res (OCR); Acrobat Reader. São abordados também fatores essenciais facilitador deste. aos trabalhos de digitalização tais como 2. criação de arquivos de imagens tecnologias de Reconhecimento Óptico dos Tendo em vista esta proposta, o proje- (JPG), contendo as páginas da obra e Caracteres (OCR) e avaliação das to Campus Global foi estruturado a par- mantendo o leiaute original da publica- características do acervo a ser digitalizado. tir de quatro frentes de pesquisa, a sa- ção, sem conversão para texto. Por fim, é realizado um comparativo entre as duas sistemática estudadas, apontando ber, educação à distância e colaborati- pontos positivos e negativos que devem ser va, bibliotecas digitais, trabalho coope- A escolha do formato de arquivo JPG considerados na escolha de uma diretriz de rativo, gerência de recursos Internet. deveu-se ao fato de este possuir uma trabalho. alta taxa de compressão, permitindo o Palavras-chave Neste contexto, o Laboratório de Biblio- armazenamento de imagens com qua- teca Digital vem pesquisando o desen- lidade em arquivos de tamanhos redu- Conversão de documentos do formato volvimento de tecnologias para permi- zidos, sendo, por este motivo, ampla- tradicional para o digital; Sistemáticas de mente utilizado na rede Internet. conversão para HTML; Geração de arquivos tir o acesso a informações de conteú- PDF; Tecnologias de reconhecimento óptico do bibliográfico à distância. Uma das dos caracteres. alternativas pesquisadas aponta para 300 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  • 2. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Para exemplificar a relação entre for- FIGURA 1 FIGURA 2 mato de arquivo e espaço de armaze- nagem, foi realizado um teste compa- rativo permitindo verificar a relação en- tre os tamanhos dos arquivos gerados no contexto estudado – digitalização de documentos a partir do formato papel. É importante salientar que foram utili- zadas rigorosamente as mesmas con- figurações de compressão e qualidade disponíveis em formatos de arquivos como o JPG e GIF. No teste, foram utilizadas uma página do livro História da PUCRS ilustrada na figura 1, por esta ser composta de ima- gem e texto sem cores, e a capa da mesma obra, por ser colorida, figura 2. A tabela 1 apresenta, a seguir, os re- sultados do teste comparativo conside- rando os formatos de arquivos de ima- gens mais utilizados. Para avaliar as vantagens e desvanta- Páginas utilizada como teste comparativo gens relacionadas a cada uma das di- retrizes estudadas (conversão para tex- to e disponibilização como imagem), TABELA 1 tomou-se como base (Haigh2 ), que con- Comparativo entre os tamanhos de arquivo sidera, para a escolha do processo de digitalização, os seguintes pontos: Formato do Arquivo Pagina P&B Capa (reduzida) 11,50 cm X 17,80 cm 7,14 cm X 10,68 cm • necessidade de reutilização, edição ou reformatação do texto; JPG (Joint Picture Experts Group) 34 Kb 16 Kb • disponibilidade do texto para pesqui- TIF (Tagged Image File) 74 Kb 43 Kb sas full-text ; GIF (Graphics Interchange Format) 76 Kb 40 Kb PDF (Portable Document Format) 76 Kb 34 Kb • posterior codificação do texto no for- PSD (PhotoShop) 82 Kb 62 Kb mato HTML; PCX (Zsoft Paintbrush) 97 Kb 64 Kb BMP (Windows Bitmap) 280 Kb 60 Kb • recursos disponíveis para realização WMF (Windows Meta File) 282 Kb 61 Kb do processo; EPS (Encapsuled Post Script) 573 Kb 135 Kb • tamanho dos arquivos para armaze- nagem e transmissão. – necessita pouco espaço para arma- No contexto geral do projeto, a realiza- zenagem das obras digitalizadas. ção de pesquisa full-text se faz ne- Pela análise realizada, chegou-se às cessária e é um objetivo a ser alcança- seguintes conclusões sobre cada um • Disponibilização como imagem: do. Além disso, outro fator determinan- dos processos: te a favor da conversão para texto é – impossibilidade de edição e manipu- que a velocidade de transmissão de • Com conversão para texto: lação do texto das obras; dados no Brasil ainda não atinge os padrões desejados para transferência – possibilidade de edição e manipula- – impossibilidade de realização de pes- de arquivos de imagem. No caso dos ção do texto das obras; quisas full-text ; arquivos texto, a velocidade de trans- – processo de digitalização simplifica- missão não é um fator crítico, pois es- – possibilidade de realização de pes- tes possuem tamanho bem inferior. quisas full-text; do e rápido; – ocupa grande espaço para armaze- – processo de digitalização é demora- nagem da obra digitalizada (aproxima- do e trabalhoso; damente 20 vezes mais que textos). Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 301
  • 3. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Portanto, decidiu-se proceder inicial- FIGURA 3 mente à digitalização de obras me- Representação Esquemática do Processo de Digitalização HTML diante o reconhecimento ótico dos ca- racteres (OCR) e posterior transforma- D i g i t a li z a ç ã o d o t e x t o e T r a n s f o r m a ç ã o e m a r q u iv o H T M L ção no formato HTML. 1 2 C a p tu ra d e Im a g e m d o s te x to s OCR SISTEMÁTICA DE DIGITALIZAÇÃO HTML O m n i P a g e 5 .0 O m n i P a g e 5 .0 3 Para realização dos trabalhos voltados 4 R e v is ã o e C o rre ç ã o A rq u i v o d o t e x to T e x to à definição de uma sistemática de cap- C o n v e rsã o p a r a tura e conversão de documentos para HTM L M S - W o r d 6 .0 .D O C o formato HTML, foi utilizado como N etsc ape C om po s er instrumento de testes a publicação da Faculdade de Medicina da PUCRS denominada Acta Médica Volume 1. A rq u i v o HTM L Os trabalhos foram realizados median- te os recursos disponíveis, ou seja, .H T M scanner HP Scanjet II, software de OCR (Reconhecimento Ótico de Carac- teres) OmniPage Pro 5.0, editor de In se r çã o d e Im a g e n s n o textos MS- Word 6.0 e o conjunto de C o m p o siçã o te x to c o m c o n v e r s ã o F in a l d a O b ra a u t o m á t ic a p a r a softwares do Netscape Communicator D ig ita l fo r m a to J P G 4.0 (Pohlmann1 ). O b r a D i g it a l N etsc ape C om po s er .H T M Inicialmente, são apresentadas as prin- cipais características das Actas Médi- D i g i t a li z a ç ã o d e F i g u r a s cas, para que se possa ter uma idéia do contexto estudado e da adequação C a p tu ra d e Im a g e m dos recursos utilizados. d a s fig u ra s A rq u i v o de I m ag em D e s k S c a n II Como um compilado de artigos de alu- .B M P nos (trabalhos de conclusão), estas publicações começaram a ser editadas em 1977. Em sua maioria, são docu- – notas de rodapé; 4) conversão para formato HTML. mentos antigos que precisam passar pela função de criação e captura, ou – subdivisão de itens por meio de cha- A descrição detalhada de cada uma seja, conforme (Pohlmann1 ) são docu- ves; destas etapas pode ser vista no ende- mentos que têm de ser necessariamen- reço te digitalizados. – manchas de tinta e falhas na impres- são; http://www.cglobal.pucrs.br/ O objeto inicial desta pesquisa foi a pri- bibdigital/artigos/art3.htm. meira edição da Acta Médica, editada – textos e figuras somente na cor preta em 1977. Este documento possui um ou tons de cinza. Para cada capítulo do livro, foi criado leiaute de texto complexo contendo: um arquivo HTML diferente para facili- Descrição do Processo de tar a posterior ligação com indexado- – texto dividido em duas colunas; Digitalização res, hiperlinks e softwares de gerência de bibliotecas. – tamanho de letra muito pequeno O objetivo do processo foi a transfor- (aproximadamente tamanho times new mação da obra para formato digital e O espaço total em disco, ocupado pe- roman 10); sua publicação em formato HTML. Para los 16 capítulos digitalizados, conten- tanto, dividiu-se o trabalho em quatro do 241 páginas de texto e 72 figuras, – fórmulas matemáticas manuscritas etapas: foi de 2,41 megabytes , comprovando em meio ao texto; eficiência em termos de economia de 1) leitura ótica das páginas da obra; espaço de armazenagem e conseqüen- – seqüência de texto não linear (em al- te agilidade no acesso aos documen- guns capítulos, o texto inicia pela colu- 2) reconhecimento do texto por meio tos full-text, via Internet. na da direita); de software de OCR; Um resumo deste processo é apre- – figuras e imagens; 3) revisão e correção do texto por inter- sentado, acima, esquematicamente, na médio de editor de texto; (MS-Word 6.0); figura 3. 302 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  • 4. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Na tabela 2 são apresentados também TABELA 2 os tempos médios verificados na exe- Tempos médios para realização das etapas cução de cada uma destas etapas. Os tempos apresentados são para um nú- ETAPAS TEMPO MÉDIO mero padrão de 50 páginas e 12 figu- ras. Captura das imagens dos textos e execução do programa de reconhecimento ótico de 65 minutos Busca de melhores resultados no caracteres – OCR (com a criação do arquivo texto) OCR Revisão e correção do texto 400 minutos A elaboração da sistemática HTML foi feita com a utilização do software de Conversão dos arquivos texto para arquivos HTML 15 minutos OCR Omni Page Pro 5.0. Os resulta- Captura de imagens e criação de arquivos BMP 20 minutos dos deste experimento apontaram um tempo total de conversão muito alto, Inserção de imagens no texto e composição final da obra 10 minutos principalmente pela necessidade de realização de uma revisão e correção Tempo médio para transformação de um texto de meticulosa dos erros gerados pelo pro- 50 páginas, com 12 figuras, do formato convencional 510 minutos cesso de reconhecimento óptico dos (em papel), para o formato digital, segundo a (aprox. 8,5 horas) caracteres (OCR). sistemática proposta Dando continuidade ao trabalho, dese- Observação: Cumpre salientar que estes tempos foram estimados contando com a participação de java-se verificar a utilização de uma duas pessoas para sua realização. Obviamente, quanto maior a equipe, menor o tempo consumi- versão mais atual do software, o Omni do. Também os recursos de hardware utilizados, principalmente o scanner que não possuía Page Pro 8.0, a fim de identificar me- recurso ADF (Automatic Document Feeder), não são os recomendados para este tipo de trabalho. A utilização de recursos mais apropriados tende a melhorar as performances observadas, princi- lhorias no processo de reconheci- palmente nas etapas de captura de imagens, revisão e correção de texto, que são críticas neste mento de caracteres que reduzissem processo. o trabalho de revisão e correção a patamares aceitáveis, dentro do esco- Outra característica a ser salientada é Após realizado o processo, os arquivos po de um projeto de digitalização em a alta qualidade (qualidade laser) de de saída contento o texto reconhecido larga escala. impressão do informativo, bem como a pelo OCR foram salvos no formato utilização de fontes padrão (arial), o DOC do MS-Word 6.0, por ser comum Para realização deste trabalho compa- que, segundo (Caere3), levaria o Omni a ambas as versões e permitir a utiliza- rativo, escolheu-se um informativo de Page Pro 8.0 a atingir uma taxa de acer- ção de um dicionário ortográfico comum publicação interna na PUCRS chama- to no reconhecimento dos caracteres na detecção dos erros de reconheci- do “PUCRS Informação”. O mesmo foi superior a 99%. mento dos caracteres. A comparação escolhido por possuir uma diagrama- entre as taxas de reconhecimento atin- ção elaborada, com fotos e textos dis- O “PUCRS Informação”, composto de gidas pelas versões 5.0 e 8.0 do Omni- tribuídos de forma não-linear, permitin- 20 páginas, foi digitalizado e armaze- page Pro partiu de uma análise destes do a comparação entre os procedimen- nado como imagem para posterior re- arquivos. tos de definição automática das zonas conhecimento dos caracteres e zonas de texto de ambas as versões do de texto em ambas as versões do Om- Realizou-se a contagem do número to- OmniPage Pro. niPage. Para tanto, foi utilizado o Omni tal de palavras na obra. A seguir, reali- Page Pro 5.0 e um scanner de mesas zou-se a contagem das palavras que O processo de definição de zonas HP Scanjet II, gerando um arquivo de possuíam incorreções na grafia origi- de texto pode ser realizado de for- saída no formato proprietário MET con- nadas por um erro no reconhecimento ma manual, conforme descrito em tendo as 20 páginas digitalizadas. Este dos caracteres. De posse deste valo- (Pohlmann1), produzindo um resultado arquivo foi aberto em ambas as versões res, calculou-se o percentual de acer- melhor em termos de fidelidade ao 5.0 e 8.0, onde foi realizado o reconhe- tos atingido pelo reconhecimento dos leiaute da obra original, no entanto cimento óptico dos caracteres (OCR) caracteres em ambas as versões. Cum- esta atividade envolve muita intera- e a definição automática das zonas de pre salientar que os dados obtidos re- ção do usuário tornando o processo texto, uma vez que ambas as versões lacionados à taxa de reconhecimento lento. A utilização da definição auto- possuem esses recursos. do processo de OCR consideraram as mática das zonas do texto é uma ten- 20 páginas do informativo na íntegra. tativa de reproduzir o leiaute da obra A tabela 3, a seguir, ilustra os resulta- original sem a interação do usuário. dos obtidos. No entanto, os resultados ficam aquém dos esperados. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 303
  • 5. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Concluiu-se que a utilização de uma TABELA 3 versão mais atual do software Omni Comparativo dos resultados do OCR Page Pro não promoveu significativa melhoria nos resultados do processo de Total de palavras Palavras com erro Taxa de reconhecimento dos caracteres que pu- reconhecimento desse acelerar significativamente os trabalhos de digitalização de um acer- Versão 5.0 4833* 308 93,6% vo em larga escala, uma vez que a ne- Versão 8.0 4785 168 96,5% cessidade de revisão do texto perma- * A diferença observada no número total de palavras deve-se ao fato de a versão 5.0 dividir algu- neceu necessária. mas palavras ao meio, gerando duas novas. Diretrizes para busca de uma nova sistemática A integração de dicionários ortográficos Aliado a estes fatores, pode-se mencio- ao processo de reconhecimento dos nar também o fato de que a maioria das Segundo (Haigh2), a taxa de reconhe- caracteres, como o procede o Omni- obras é composta não somente de tex- cimento de um OCR para conversão de Page Pro, auxilia a identificação das tos. Também contêm figuras, fórmulas documentos deve ser superior a 98%. palavras consideradas suspeitas. No e esquemas gráficos cujos softwares Caso contrário, é mais eficiente reali- entanto, dada a impossibilidade de se de OCR atuais não oferecem um trata- zar a redigitação do documento. construir um dicionário eletrônico que mento adequado, sendo necessária a abranja todos os termos técnicos es- utilização de um outro software para Esta taxa de reconhecimento é medi- pecíficos de cada área, nos diversos captura das imagens e posterior inte- da considerando o número de edições idiomas contemplados pelo acervo da gração. Tal procedimento exige muita necessárias (inserções, deleções, biblioteca da PUCRS, persiste a neces- interação do usuário e torna o tempo substituições) diante do número total de sidade de realização de uma leitura de digitalização de uma obra muito alto, caracteres. Recomenda-se, no entan- cuidadosa, pois uma palavra assinala- considerando a amplitude do trabalho to, que este dado não seja utilizado da como suspeita pode estar correta ou desejado. como referência para trabalhos de di- não. gitalização em larga escala, pois des- Tais informações levaram os pesquisa- considera todo o trabalho de localiza- Como um agravante, muitas das obras dores do laboratório de biblioteca digi- ção de erros no texto, que muitas ve- do acervo da Biblioteca Central da PU- tal da PUCRS a buscar outras alterna- zes demanda uma leitura completa da CRS (aproximadamente 300 mil obras) tivas de digitalização que envolvessem obra. Além disso, quando o vocabulá- não apresentam um estado de conser- menor interação do usuário, viabilizan- rio utilizado é eminentemente técnico, vação adequado à realização da digi- do a realização do trabalho em larga pode ser necessária a confrontação talização por meio de softwares de escala. com a obra original em papel, para iden- OCR, tais como: tificação da grafia correta de uma pala- Desta forma, iniciou-se o trabalho de vra. • obras com páginas riscadas e com definição de uma nova sistemática de anotações a lápis e a caneta; digitalização utilizando o software da O que deve ser considerado efetiva- empresa Adobe, denominado Adobe mente é o volume de tempo despendi- • obras com papéis com gramatura mui- Acrobat. Este software foi cedido pela do por um usuário, ao realizar a corre- to fina (50 gr/m²), fazendo com que o empresa ao Laboratório de Biblioteca ção/conferência de um texto reconhe- texto de um lado da página seja visível Digital da PUCRS para a realização de cido pelo OCR. do outro lado; testes por um período de 60 dias. Se- gundo (Adobe4), tem como caracterís- Enquanto os software de OCR não atin- • obras com páginas amassadas, man- ticas: girem uma taxa de reconhecimento de chadas, sujas, deterioradas por mofo, 100%, será necessária meticulosa re- traças, ou mesmo pela própria utiliza- • facilidade de criação e publicação de visão da obra para localização e corre- ção. documentos on-line; ção dos erros, atividade essa que tor- na a realização de trabalhos de digitali- Apesar de possuir um setor específico • mantém o leiaute original das obras zação em larga escala altamente cus- para recuperação do acervo, muitos digitalizadas; tosos, sendo necessária a utilização de dos problemas são irrecuperáveis, e, grandes equipes com numerosos recur- com uma movimentação diária de 2 600 • utiliza o formato de arquivo PDF (Por- sos para que o trabalho não se torne empréstimos, a tendência é que tais table Document Format), que permite excessivamente demorado. problemas não sejam eliminados. a criação de documentos multiplatafor- ma que podem ser visualizados inclu- sive em browsers (software de nave- gação na Internet); 304 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  • 6. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF • possibilidade de captura e conversão TABELA 4 de grandes volumes de documentos Tempo para digitalização das obras utilizando o Scanner HP Network 5 com um baixo nível de interação do usuário. Volume 1 159 páginas 16 minutos Estas características se mostraram Volume 2 295 páginas 36 minutos bastante adequadas ao tipo de traba- lho que se tinha para realizar. Total 454 páginas 52 minutos Média: 8,73 páginas por minuto SISTEMÁTICA PDF Digitalização por meio da captura de O tempo levado para digitalização dos 2) quando da aplicação do OCR nas documentos dois volumes da História da PUCRS páginas da obra, os arquivos reduziram está explicitado na tabela 4. o seu tamanho em aproximadamente Para a definição de uma sistemática de quatro vezes; digitalização por meio da captura de do- Um dos objetivos previstos era a pos- cumentos utilizando o software Adobe sibilidade de realização de pesquisas Dado a inviabilidade de realização do Acrobat, escolheu-se, como objeto de full-text na obra. Para tanto, seria ne- OCR nas páginas da História da PU- teste, a obra história da PUCRS. Esta cessário que as imagens digitalizadas CRS, alguns dos objetivos traçados no escolha deveu-se a adequação da obra passassem por um processo de reco- início da pesquisa precisaram ser aban- ao trabalho que estava proposto e pela nhecimento ótico de caracteres (OCR), donados. Em especial a possibilidade liberação dos direitos autorais da obra ou seja, a transformação da imagem em de realização de pesquisas no texto por parte dos autores, permitindo aliar texto. desta obra. sua disponibilização à comemoração do cinqüentenário da universidade, A realização de OCR em arquivos no Neste momento, decidiu-se dar se- ocorrida em 1998, época em que esta formato PDF é feita pelo software qüência ao trabalho de digitalização pesquisa estava em andamento. Adobe Acrobat Exchange, o qual pos- mantendo as páginas da obra como sui uma interface adequada para a ta- imagens, pois julgou-se importante ava- A obra possui somente uma coluna de refa, sendo possível a realização do liar as características e o comportamen- texto, as letras são Times New Roman processo sobre todas as páginas de to dos arquivos PDF contendo imagens de tamanho 12. São encontradas foto- uma vez só. das páginas digitalizadas. grafias e ilustrações em meio ao texto, no entanto nenhuma utiliza cores, so- No entanto, foi frustrante descobrir que Partiu-se, então, para a exploração de mente tons de cinza. o software em sua versão 3.01 não recursos do formato PDF que permi- possui dicionário para reconhecimento tiriam aprimorar a navegabilidade e Para digitalização da História da das palavras e caracteres da língua aparência da obra, tais como a criação PUCRS, foi utilizado o scanner HP portuguesa, o que inviabilizou a reali- de links e bookmarks, a separação dos Network Scanner 5, destacando-se zação do OCR e, por conseqüência, a capítulos, a adequação do tamanho e pela velocidade de digitalização e pela transformação da imagem capturada da visualização das páginas da obra. presença de uma bandeja para entra- via scanner em um texto. Estes ajustes foram realizados utilizan- da automática de papel ADF (Automa- do o Adobe Acrobat Exchange. Uma tic Document Feeder), apesar de su- Apesar disso, duas características in- descrição detalhada deste procedimen- portar somente a digitalização de ima- teressantes relacionadas ao OCR apli- tos pode ser encontrada em gens em tons de cinza, fato que não cado pelo Acrobat Exchange devem ser http:www.cglobal.pucrs.br atrapalhou a definição da sistemática. ressaltadas: bibdigitalkitskit3.html. Para a inserção das páginas da obras 1) as palavras ou conjuntos de carac- na bandeja de entrada de papel, foi teres não reconhecidos foram mantidos necessário realizar um corte rente a como imagens, de forma que a leitura parte onde as folhas estão presas para do texto continuou sendo possível; que estas se soltassem. Ao final, a apli- cação cliente do scanner gera automa- ticamente um arquivo contendo as pá- ginas digitalizadas como imagens, ou seja, uma imagem para cada página, agrupadas em um só arquivo PDF. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 305
  • 7. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF A seguir, será apresentado o resumo Figura 4 esquemático do trabalho de digitaliza- Esquema de digitalização da história da PUCRS ção da História da PUCRS (figura 4). Digitalização da história da PUCRS História da PUCRS São apresentados também os tempos médios verificados na execução de Captura e manipulação das imagens Manipulação das Imagens cada uma destas etapas. Os tempos apresentados correspondem à digitali- 1 2 zação do primeiro volume da obra, com Captura de imagem Separação em 159 páginas (tabela 5). dos textos capítulos Digitalização e da conversão de documentos HP ScanJet 5 Utility Acrobat exchange Tendo em vista a inadequação do OCR, decidiu-se pesquisar alternativas que 3 4 tornassem possível a realização de Inserção pesquisas full-text. Uma possibilidade Inserção de links encontrada foi a conversão de docu- de bookmarks Arquivos mentos já existentes no formato digital Acrobat exchange para o formato PDF, evitando, dessa Acrobat exchange forma, a necessidade de reconheci- .PDF mento óptico dos caracteres, uma vez que o documento original não é gerado 5 6 mediante a captura de imagens com Cortes nas Configuraçã uso de um scanner. páginas (crop) da visão inicial Para a realização deste novo trabalho, foi escolhido como instrumento de tes- Acrobat exchange Acrobat exchange tes a dissertação de mestrado do pro- fessor Omer Pohlmann Filho, co-autor deste artigo, pela facilidade de nego- TABELA 5 ciação dos direitos autorais e pela ade- Os tempos de realização das etapas do processo de digitalização quação da obra ao trabalho proposto. ETAPAS TEMPO MÉDIO A dissertação em questão consiste de um conjunto de arquivos digitais com Captura da imagens dos textos no scanner criação dos 16 minutos 247 páginas divididos entre textos ela- arquivos PDF (159 páginas) borados no Word 2.0 contendo grande Separação dos Arquivos em capítulos 30 minutos número de tabelas, fórmulas e figuras, e oito tabelas elaboradas no Excel 3.0. Criação dos índices link no índice da obra 40 minutos* Pelas características das tabelas, se- Criação das bookmarks 30 minutos* ria muito trabalhoso realizar a conver- Cortes nas páginas (crop) 20 minutos* são para HTML, uma vez que os recur- Configuração da visão inicial 1 minuto sos de tabela disponíveis na linguagem Tempo médio para transformação de um texto do formato 137 minutos não são satisfatórios para tanto. convencional (em papel) para o formato digital, segundo a (2 horas e 17 min.) O trabalho de conversão consistiu na sistemática proposta (PDF) carga destes arquivos, por meio da uti- * Estas etapas são opcionais ao processo de digitalização e podem variar de acordo com as lização de versões mais recentes do características da obra. Word e do Excel, e posterior impres- são dos mesmos utilizando o driver de impressão denominado Adobe PDF Writer. Este driver se encarrega de cap- turar a impressão e convertê-la para um arquivo PDF. Foi necessário agrupar estes arquivos em um só, baseando-se na ordenação encontrada na publicação original (em papel). 306 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  • 8. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF A conversão produziu um resultado FIGURA 5 considerado excelente. Sem maiores Esquema de conversão da dissertação de mestrado dificuldades, foi possível agrupar todas as partes que formavam a dissertação Conversão da dissertação de mestrado Dissertação de Mestrado (arquivos de Word e Excel) em um Documento digital na forma de texto para arquivo PDF Digital na forma de Texto para arquivo PDF mesmo arquivo no formato digital, sem preocupações maiores com as versões 1 2 dos softwares utilizados. Carga e impressão Captura do arquivo A seguir, será apresentado o resumo do documento de impressão esquemático do trabalho de conversão da dissertação de mestrado (figura 5). Word / Excel Acrobat PDF writer São apresentados também os tempos médios verificados na execução de 3 4 cada uma destas etapas (tabela 6). Agrupamento em Configuração COMPARATIVO ENTRE AS um só arquivo Arquivos da visão inicial SISTEMÁTICA APRESENTADAS Acrobat exchange Acrobat exchange Ao final deste trabalho, foram conside- .PDF rados positivos os resultados obtidos com a sistemática PDF, uma vez que, na comparação com a sistemática TABELA 6 HTML pesquisada anteriormente, esta Os tempos de realização das etapas do processo de conversão apresentou vantagens significativas conforme ilustra a tabela 7. Os tempos ETAPAS TEMPO MÉDIO apresentados são para um número pa- Carga e solicitação de impressão dos arquivos 10 minutos* drão de 50 páginas e 12 figuras. (1 Texto em MS-Word e 8 tabelas em MS-Excel) O principal ponto a favor da sistemáti- Captura da Impressão e Conversão para PDF 10 minutos* ca PDF é o tempo total demandado Agrupamento dos arquivos 15 minutos* para transformação de maneira total- Configuração da visão inicial 1 minuto mente confiável, de uma obra em pa- Tempo total de conversão 36 minutos pel para o formato digital. Este ponto merece especial importância, pois tor- * Tempos que podem variar de acordo com as características da obra. na viável a realização do processo em larga escala influenciando também na TABELA 7 quantidade de recursos humanos ne- Comparativo entre a Sistemática HTML e as Sistemáticas PDF cessários para estruturação de um nú- cleo para realização desta tarefa. Sistemática Sistemática Sistemática 5 Característica HTML PDF – Captura PDF – Conversão Segundo (Pohlmann ), no contexto do Captura (imagem) (texto) projeto de criação de uma biblioteca digital na PUCRS, está prevista a es- truturação de um núcleo de digitaliza- Mantém o leiaute original da obra Não Sim Sim ção de documentos. Este núcleo terá Possibilidade de manipulação do Sim Não Sim por objetivo a produção de acervo digi- texto tal para a biblioteca digital da PUCRS, Possibilidade de realização de Sim Não Sim devendo contemplar os recursos ne- pesquisas full-text cessários para a realização desta tare- Espaço de armazenagem Pequeno (texto) Aproxim. Aproxim. fa incluindo hardware , software, insta- 7 vezes maior 4 vezes maior lações e recursos humanos. Tais recur- Revisão e correção do texto *400 min Não há Não há sos humanos receberão treinamento e Tempo de transmissão via rede Baixo 7 vezes maior 4 vezes maior orientações a partir dos resultados Tempo total aproximado de 510min 46min 6min apontados por esta pesquisa. transformação de uma obra de 50 páginas e 12 figuras * Observação: Cumpre salientar que o tempo relacionado a sistemática HTML foi determinado, com o trabalho sendo realizado por duas pessoas. Principalmente, a etapa de revisão e correção de texto pode ser agilizada agregando-se mais uma pessoa à equipe de trabalho. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 307
  • 9. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF A seguir, apresenta-se uma sugestão TABELA 8 de recursos mínimos necessários e os Recursos para estruturação do núcleo respectivos custos iniciais envolvidos para a formação de um núcleo de digi- Sistemática HTML Sistemáticas PDF talização de documentos. Isto visa a (Digitalização e Conversão) permitir a comparação entre as siste- máticas apresentadas, levando em Recurso Especificação Preço* Especificação Preço* conta também a questão financeira. As sistemáticas de digitalização e conver- 01 Computador: 01 Computador: são de documentos baseadas no for- Pentium II 400 Mhz , Pentium II 400 Mhz , mato PDF necessitam dos mesmos re- 64 Mb RAM , HD 6,2 64 Mb RAM , HD 6,2 cursos e foram, por este motivo, agru- Gb IDE, CD 24x, 6.158,00 Gb IDE, CD 24x, 6.158,00 Monitor 17", Placa de Monitor 17", Placa de padas na mesma coluna. Os recursos Rede 10/100 Mbps, Rede 10/100 Mbps, indicados, bem como custos envolvidos, Porta USB, Windows Porta USB, Windows consideram a realidade da PUCRS. NT 4.0 WS NT 4.0 WS Hardware Verifica-se que os valores diferem so- 01 Scanner: HP 01 Scanner: HP mente na aquisição das licenças dos ScanJet 6250: conexão ScanJet 6250: conexão software e ainda assim possuem valo- USB, Bandeja ADF, 1.598,00 USB, Bandeja ADF, 1.598,00 res aproximados. No entanto, deve-se Resolução 1200X Resolução 1200X realizar uma comparação relevando o 999.999 DPI 999.999 DPI custo relativo aos recursos humanos 01 Licença Windows Incluída no 01 Licença Windows Incluída no envolvidos na realização da tarefa nas computador NT 4.0 computador NT 4.0 diferentes sistemáticas, uma vez que a Software principal diferença identificada foi o tem- 01 Licença Caere 549,00 01 Licença Adobe 500,00 po dispendido. Omni Page 8.0 Acrobat 3.01 Utilizando o mesmo exemplo da tabela 01 Aparelho de Ar 1.177,51 01 Aparelho de Ar 1.177,51 7, é possível verificar o custo dos re- Condicionado 18.000 Condicionado 18.000 cursos humanos envolvidos. Para tan- btus btus to, foi calculado o valor da hora traba- 02 mesas para 188,00 02 mesas para 188,00 lhada do profissional considerando 160 microcomputadores microcomputadores horas mensais (R$ 2.255,90 por pro- Instalações fissional / 160 horas/mês = R$ 14,10/ 02 luminárias de 03 100,00 02 luminárias de 03 100,00 hora por profissional) lâmpadas com lâmpadas com refletores refletores Os pontos negativos da sistemática PDF são menos críticos para um pro- 02 pontos de rede 166,00 02 pontos de rede 166,00 jeto em larga escala, tais como o espa- ço de armazenagem, tempo de trans- 02 cadeiras com 156,00 02 cadeiras com 156,00 rodízios rodízios missão em rede, impossibilidade de realização de pesquisas full-text (so- Recursos 02 Remuneração com 02 Remuneração com mente para o caso da captura) e mani- Humanos Encargos Sociais 4.511,80 Encargos Sociais 4.511,80 pulação do texto. (Bibliotecário Júnior) (Bibliotecário Júnior) A possibilidade de realização de con- Total 14.604,31 14.555.31 versões de documentos já existentes no formato digital para o formato PDF * Os valores de referência estão em Reais, cotados na época a 1,71 em relação ao dólar americano mostrou-se muito eficaz, em especial pelo fato de reproduzir o conteúdo dos TABELA 9 documentos exatamente como estes Comparativo entre despesas com recursos humanos seriam impressos e por facilitar a mes- Sistemática Sistemática clagem de documentos, constituídos de Sistemática PDF – Captura PDF – Conversão diversos arquivos de software diferen- HTML Captura (imagem) (texto) tes, gerando um só arquivo PDF. Tempo dispendido 510min 46min 6min Cálculo R$ 14.10 X 8.5 R$ 14.10 X 0.76 R$ 14.10 X 0.1 horas horas X 2 pessoas horas X 2 pessoas X 2 pessoas Despesa com recursos humanos R$ 239,70 R$ 21,43 R$ 2,82 308 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  • 10. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Tais características indicam maior fa- A disponibilização das obras na Inter- Como prosseguimento deste trabalho, cilidade de formação de um acervo con- net será feita, em primeiro momento, será realizado, em conjunto com a Fa- tendo documentos recentes (que teori- pelo software ALEPH, que gerencia a culdade de Biologia e com o suporte camente já existem em meio digital), catalogação e consulta do acervo da da Biblioteca Central, a digitalização de possibilitando inclusive a realização de Biblioteca Central. obras de formatos diversos tais como pesquisas full-text nos arquivos que fotografias, sons, textos e imagens. foram convertidos a partir do formato O ALEPH possui uma interface que Esses recursos serão utilizados para a texto, além de favorecer a padroniza- permite a realização de consultas pela elaboração de materiais didáticos, ser- ção das publicações digitais e, por con- Internet, possibilitando aos usuários vindo como fonte de pesquisa para a seqüência, o posterior armazena- verificar a existência das obras no acer- avaliação das características do Ado- mento, recuperação e manipulação. vo, bem como a sua disponibilidade be Acrobat Reader para suporte a es- para empréstimo. Os recursos de pes- tas mídias, comparando-as com a utili- Deve-se registrar que os problemas quisa do ALEPH baseiam primariamen- zação da linguagem HTML para o mes- que impõem dificuldades à realização te em autores, títulos e assuntos, mas mo propósito. do OCR, sejam eles causados pelo es- é possível realizar consultas avança- tado de conservação do acervo, tais das acessando qualquer informação A continuidade deste trabalho objetiva como manchas, amassados, riscos e constante no registro de cadastramen- definir novas sistemáticas que sejam anotações, ou ligados a ineficiência dos to da obra. Pode-se ainda combinar di- adequadas à digitalização de obras e softwares de OCR para tratamento de versos argumentos de pesquisa me- materiais existentes nos mais diversos características, como fórmulas mate- diante a utilização de lógica booleana. formatos, servindo assim para orientar máticas, figuras, trechos manuscritos, a estruturação do núcleo de digitaliza- letras muito pequenas ou borradas, po- No caso de as obras já existirem no for- ção de documentos e produção de dem ser contornados pela digitalização mato digital, o ALEPH fornece um link materiais digitais de cunho didático. utilizando a sistemática PDF. Para tan- para acesso ao documento na íntegra, to, basta que as obras sejam digitaliza- permitindo assim que o usuário possa das como imagens, e será possível ler a obra digital pela Internet, sem pre- realizar a leitura das mesmas, por meio cisar se deslocar até a biblioteca. de um arquivo PDF, conforme a apa- rência original no momento da digitali- As pesquisas full-text serão realizadas zação. com recursos de pesquisa do Adobe Acrobat Reader, uma vez que o Neste sentido, é importante que se de- ALEPH não consegue indexar os tex- senvolvam ferramentas para realização tos existentes no formato PDF. No en- de tratamento óptico nos arquivos de tanto, para acessar os recursos de pes- imagens PDF, que filtrem automatica- quisa full-text, o usuário deve realizar mente as características indesejáveis o download do documento (copiá-lo – adulterações, manchas, amassados para sua máquina) e abri-lo por meio entre outros –, melhorando a aparên- do Adobe Acrobat Reader, pois a con- cia das obras. sulta ao arquivo PDF realizada com auxílio do browser não oferece o recur- CONSIDERAÇÕES FINAIS so de pesquisa full-text . Inicialmente, os trabalhos de constru- Com o crescimento do acervo digital, ção do acervo da Biblioteca Digital da torna-se necessário a utilização de ou- PUCRS serão realizados com a utiliza- tros softwares que possuam recursos ção do software Adobe Acrobat para di- mais adequados à recuperação e aces- gitalização das obras existentes no for- so a este acervo, permitindo a utiliza- mato tradicional (papel) e também para ção de técnicas avançadas de pesqui- conversão dos documentos já existen- sa com a utilização de linguagem natu- tes em um formato digital diferente do ral, utilização de parâmetros fonéticos HTML. Os documentos que já estive- e técnicas de inteligência artificial. Para rem no formato HTML serão mantidos, tanto, está prevista a utilização do pois este formato permite a realização software IBM Digital Library, que recen- de pesquisas full-text, possui tamanho temente foi disponibilizado e encontra- inferior ao PDF e atende às diretrizes se em fase de instalação em nosso la- definidas para este trabalho apontadas boratório. no item Diretrizes de Trabalho. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 309
  • 11. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF REFERÊNCIAS BIBLIOGRÁFICAS 1. POHLMANN, Omer F. Campos, Márcia B. Raabe, André L. John, Fabiana. Viera, Sônia. Em Direção a Criação de uma Biblioteca Digital na Pontifícia Universidade Católica do Rio Grande do Sul: - Uma experiência Prática. II Seminário Internacional de Bibliotecas associadas a UNESCO, Cienfuegos – Cuba. 23 a 27 de maio de 1998. 2. HAIGH, Susan. Optical Character Recognition (OCR) as a Digitization Technology. [Citado em 10 jan. 1998]. Disponível em WWW: [http://collection.nlc-bnc.ca/100/ 201/301/netnotes/netnotes-h/ notes37.htm] 3. CAERE Corporation. A Quantum Leap in Accuracy. [Citado em 11 jan. 1998]. Disponível em WWW: [http:// www.caere.com/live/content/products/ amaretto/amaretto.htm] 4. ADOBE Acrobat 3.0 Product Information. [Citado em 14 jul. 1998]. Disponível em WWW: [http://www.adobe.com/prodindex/ Acrobat/prodinfo.html] 5. POHLMANN, Omer F. Raabe, André L. Direito Autoral no Contexto de Bibliotecas Digitais. III Congresso Internacional de (Tele) Informática Educativa, Santa Fe – Argentina. 14 a 17 de abril de 1999. Comparative study between systematics of digitisation of documents: Formats HTML and PDF Abstract This article presents the resulting experience of Digital Library Group of PUCRS University, for the process of capture and conversion of existing documents from traditional format (paper) to a digital format. The major steps of the process are presented and evaluated using two different systematics: one based on HTML conversion; and other based on the creation of PDF files for Adobe Acrobat Reader software. Critical issues such as Optical Character André Luís Alice Raabe Recognition (OCR) and characteristics evaluation of the collection to be converted Bacharel em Informática, PUCRS, 1997. are approached also. Mestrando em Informática, PUCRS 1998. At the end, is presented a comparative study between the two systematics, identifying Omer Pohlmann Filho positive and negative characteristics to be considered for choosing a work direction. Bacharel em Administração de Empresas, PUCRS, 1979. Especialista em Análise de Sis- Keywords temas, PUCRS, 1981. Mestre em Informática, PUCRS, 1996. Conversion of documents from the traditional to the digital format; Systematics of {araabe, omer}@cglobal.pucrs.br conversion to HTML; Creation of PDF files; OCR technologies. 310 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998