domingo, 18 de novembro de 2012

Como digitalizar livros físicos - Tutorial e video aula

Fabiane Lima
Desde o surgimento dos livros digitais, há uma turma por aí que torce o nariz para eles, aparentemente sem motivo. Se antes não havia dispositivo que pudesse imitar a textura sem brilho do papel, hoje as vantagens de se ler a série A Song of Ice and Fire em formato digital superam muito as possíveis vantagens que poderiam haver em lê-la no livro físico, por exemplo. Daí se conclui que a turma supracitada tem algo mais parecido com uma parafilia, querendo sentir o toque e o cheiro do papel, e ver toda a sua coleção pegando poeira e sendo tomada por traças numa bela estante estrategicamente posicionada para impressionar as visitas. Mas tara é tara, e cada um com as suas.
O assunto deste texto, porém, é outro. Apesar de a disponibilidade de livros digitais hoje ser grande, podendo-se achar quase qualquer título nas Amazons da vida, nem tudo são flores. Aquele “quase” ali inclui livros acadêmicos, livros lançados apenas no Brasil (sejamos sinceros: nenhum serviço brasileiro de livros digitais se compara minimamente com a Amazon), edições antigas, e uma série de outras possibilidades que impedem leitores adeptos deste novo formato de conseguir ler em seus aparelhinhos. No Brasil, a demanda por livros digitais é ainda muito pequena, seja por falta de quem compre ou pela falta de eReaders, o que desencoraja editoras a digitalizar seu acervo.
E o que fazer quando você se dá conta de que há em sua casa uma estante cheia de títulos acumulados ao longo da vida e que jamais lerá, justamente por não estarem em formato digital? E que alguns daqueles títulos você realmente precisa ler, uma vez que se tratam de literatura básica para uma futura vida acadêmica que você vem planejando, e para a qual a editora não está afim de contribuir? O que fazer? Como proceder?
Digitalizar seu acervo (para uso pessoal, logicamente) não é uma tarefa fácil. Em primeiro lugar, é preciso que três coisas fiquem claras:
  • Paciência: digitalizar um livro não é um trabalho divertido. Ver as horas passando no relógio e perceber que nem 20% do tomo foi escaneado e você perdeu todo um sábado em que poderia estar pedalando lá fora pode ser incrivelmente desanimador.
  • Desapego: seu livro, que custou não menos que duas refeições no Outback, pode ficar em estado lastimável se você não tem acesso a uma belezinha dessas. Pense que pode sim valer a pena e que, no final, o que conta é o conteúdo. Depois você pode pegar dois volumes daquela Barsa que não usa mais e tentar des-desengonçá-lo.
  • Uso pessoal: é recomendável não distribuir sua cópia digital por aí. Quando se compra um livro, automaticamente se concorda com termos que impedem a reprografia e redistribuição.
Se você chegou até aqui e ainda tem intenção de fazer a conversão de seus livros, seguem abaixo algumas dicas:

Digitalizando

  1. Divida o livro em trechos e faça a tarefa aos poucos. Pode levar muito tempo, principalmente se o scanner for emprestado (meu caso), e o livro, muito grande.
  2. Use uma resolução de média para alta (de 200 dpi pra cima), e não esqueça de caprichar no contraste antes de digitalizar. Isso ajuda a diminuir a quantidade de erros dos softwares de OCR (que são MUITOS). Em caso de esquecimento, é possível fazer isso depois, com Photoshop ou GIMP.
  3. Tenha um livro grosso e pesado, ou mais, para manter o livro a ser digitalizado no lugar. É bastante comum que a parte interna da brochura saia fora de foco por não estar bem posicionada no vidro do scanner e o OCR não conseguir ler. Sim, isso pode estragar seu livro. Eu avisei.
  4. Nomeie os arquivos de modo a formar uma sequência facilmente identificável.

“OCRzando”

  1. O software de OCR que utilizei foi o OCRtools, que custa 5 obamas na App Store e faz o trabalho de forma bastante decente. Talvez ele acentue palavras na forma portuguesa (como em “referéncias” ao invés de “referências”), mas isso pode ser corrigido mais adiante. Existem muitas opções gratuitas caso você faça parte dos 90% restantes da população usuária de computadores. Para Linux tem o Tesseract.
  2. No OCRtools é possível criar uma gaveta, adicionar todas as imagens ali e mandar processar. Leva um bom tempo, mas bem menos do que eu imaginava. Acredito que a maioria dos softwares funcione mais ou menos do mesmo modo.

Formatando

  1. Essa parte exige paciência: copie e cole os trechos processados pelo OCR – ou não, dependendo da saída do software que você escolheu – em um documento de texto. Faça buscas para acabar com as quebras de linha originais, e remova trechos de caracteres alienígenas que por acaso o OCR tenha inserido ao longo do texto. Usei o TextWrangler, que tem um bom sistema de busca e substituição.
  2. Cole o texto num processador de textos mais parrudo, com corretor ortográfico. É bom ficar de olho e, por mais que tome algum tempo, corrigir palavra por palavra. Esse cuidado evita que o corretor ortográfico mude nomes próprios ou até mesmo corrija errado.
A partir daqui você pode seguir por dois caminhos distintos. Um dá pouco trabalho. O outro eu segui porque não havia me tocado antes do modo mais simples e porque queria experimentar, visto que ele dá mais possibilidades de estilizar o documento final. São eles:

“eBookzando”: o modo mais simples

  1. Estilize o documento para formatar títulos, subtítulos, notas e tudo o mais e exporte o documento em PDF. Acrescente as imagens no meio do texto, se ouver, e não esqueça da capa na primeira página.
  2. Faça dowload do Calibre – que nós já resenhamos aqui.
  3. Coverta o livro em ePub (ou no formato de sua preferência/necessidade), tomando cuidado com os títulos para a correta geração automática do sumário (opção “Detecção de estrutura”), e pronto. Está feito.

“eBookzando”: modo nightmare (nem tanto)

  1. Jogue o texto novamente no TextWrangler ou em algum editor de texto melhor que o Bloco de Notas. Pode ser o Notepad++.
  2. Coloque tags HTML apropriadas em cada parágrafo, bloco de citação, títulos, subtítulos, etc, da mesma forma que faria com a ferramenta de estilos do Word. Acrescente as imagens, se houver, incluindo a capa. Faça bom uso das tags de título para a correta geração do sumário. Salve como um arquivo HTML normal.
  3. Você pode ver como vai ficando a formatação do livro com o navegador. Faça alterações no CSS se achar necessário, tendo em mente as limitações do seu leitor digital.
  4. Se seu livro tiver mais de um arquivo (como imagens), salve tudo em uma pasta, comprima em um zip e mande pro Calibre para fazer a conversão.
  5. Tome cuidado com a opção “Detecção de estrutura”. Revise todas as opções antes de exportar e pronto.
Difícil? Um pouco. Trabalhoso? Bastante. Vale a pena? Depende. Da importância do livro e de quanto tempo se tem disponível. Por enquanto eu só completei cerca de 20% do livro, mas já joguei esse pedaço no Kobo. Quando a coragem e a necessidade chegarem novamente, eu termino o trabalho.
__________________________________________________________

Aproveitamos para postar aqui no blog uma video-aula encontrada no Youtube, sobre o tema. Vale lembrar que não buscamos de maneira alguma incentivar a pirataria, mas sim a garantia de disponibilidade da Informação e do Conhecimento. Há muitos livros já em domínio público (para quem não sabe, no Brasil um livro entra em domínio público 70 anos após a morte de seu autor. Em muitos países este prazo varia de 50 a 70 anos, em média), livros evangélicos ou seculares, e que ainda não foram digitalizados. Seria de grande valia a digitalização de tais livros, e sua disponibilização gratuita na internet.

____________________________________________________________________


Na questão dos scanners, uma boa opção, que tem as vantagens de não danificar o livro, portabilidade e praticidade, são os chamados scanners de mão. Há modelos idealizados especialmente para escanear livros e revistas. 


A média de preço de um aparelho desses é de R$ 250,00, mas encontrei até por R$ 180,00. Eles não possuem fios (são alimentados por pilhas recarregáveis), e gravam em cartões de memória, e muitos já vem com software OCR (para transformar as imagens em texto). Quanto mais caro, mais recursos o aparelhinho pode trazer.


1 comentários:

Priscila Santos disse...

Pensando em digitalizar os meus mas só de pensar me cansa... rs

Postar um comentário