Cómo escanear libros : Asamblea

Lun Jun 04, 2007 3:43 pm

Responder citando

¿Y tiene que llamarse OCRopus? Por un momento pensaba que los de cierta secta católica se habían metido al softtware libre... :lol:

Perestroiko

Crítica de la impaciencia revolucionaria. Wolfgang Harich

Lun Ago 18, 2008 8:22 pm

Responder citando

Hola, Soy un digitalizador novato que quiere subir a la red la versión digitalizada de "Crítica de la impaciencia revolucionaria", de Wolfgang Harich.

Tras mucho buscarle las vueltas al Acrobat8, no consigo crear un archivo de menos de 8 MB para 100 páginas. ¿Alguna sugerencia?

El archivo de prueba ya está en la red:
eLink de eMule

Crítica de la impaciencia revolucionaria.Wolfgang Harich. pdf [8.59 Mb]

Ivanjoe

Re: Crítica de la impaciencia revolucionaria. Wolfgang Harich

Mar Ago 19, 2008 10:20 am

Responder citando

Tengo entendido que el formato .djvu acaba pesando menos que un .pdf, lo malo es que es bastante menos conocido.

8 megas hoy día no es nada

Perestroiko

Re: Crítica de la impaciencia revolucionaria. Wolfgang Harich

Mar Ago 19, 2008 12:38 pm

Responder citando

El problema es que me creo muy listo y hago las cosas sin preguntar. Para libros similares que me suelo bajar en.pdf, a unas 180 páginas suelen corresponder 2,5 megas -hablo de 180 páginas sobre un original de 360, o sea, dos páginas de original por una de pdf-. Yo suponía que estos tamaños se consigen automáticamente, pero he visto por experiencia que no. Bajo la calidad al máximo y optimizo, pero no da resultado.

De-ses-pe-raaaaa-da, estoy desesperadaaaaaa

HerrK

Re: Crítica de la impaciencia revolucionaria. Wolfgang Harich

Mar Ago 19, 2008 1:15 pm

Responder citando

Para poner un libro en formato digital tienes varias posibilidades:

Dentro de este último procedimiento el tamaño del archivo obtenido depende de los siguientes factores:

No sé si esto te ayudará en algo o son cosas que ya sabes.

Perestroiko

Re: Crítica de la impaciencia revolucionaria. Wolfgang Harich

Mar Ago 19, 2008 2:13 pm

Responder citando

Muchas gracias por las respuestas.

200ppp me parece que da poca calidad, aunque la letra del libro es grande, estoy dejándolo en 300ppp con un bit por pixel.

Bueno, seguro que es alguna bobada, a ver si al acabar las vacaciones echo el lazo a algún digitalizador experto y me río un rato de mi metedura de pata.

Duarte

Jue Abr 15, 2010 2:09 am

Responder citando

Creo haber encontrado el mejor manual que se ha editado sobre digitalización de libros.

En html

Descarga directa en pdf

Es de 2008. No sé si existirá material actualizado.

rebefa

libros pdf digitales

Sab May 29, 2010 4:52 am

Responder citando

Hola, en google books y libros en pdf hay varios libros digitales en pdf, escaneados y digitalizados para descargar (y pagos para previsualizar).

pedete

Re: Cómo escanear libros

Sab Jul 16, 2011 6:21 am

Responder citando

Hola a todos.

Me acabo de registrar porque quería daros algunos consejos basados en mi experiencia digitalizando libros como imágenes. Un verdadero coñazo tener que registrarse, meter el numerito del captcha, comprobar el correo de activación, y logearse... pero por fin estoy!

Como he dicho, yo ripeo todos mis libros en formato de imagen. La razón principal de elegir este formato es que ripear un libro con calidad lleva mucho trabajo, y el trabajo prefiero invertirlo en títulos lo más valiosos posibles. Los libros más valiosos (y caros) suelen ser libros técnicos y en general libros que no son de lectura, con fotografías, fórmulas, gráficos, referencias a otra páginas, texto en varios idiomas, etc. De esta forma conservo el formato original del libro página a página. Igualmente, al tener el libro como imagen, no es tan importante revisar el OCR, ya que lo que vemos es la imagen original y el OCR solo afecta al buscar y extraer texto, por lo que pequeños fallos son admisibles. Por otra parte, aunque te ahorras revisar el OCR, tienes que procesar las imágenes de las páginas, y es un verdadero coñazo también, pero mucho menos pesado.

Para dejar el libro como imagen, hay que escanear al menos a 300dpi en gris de 8 bits. Escanear en blanco y negro es un desperdicio, porque no tarda menos y procesar las imágenes después produce muy malos resultados. Como apaño, si no se va a procesar en absoluto (salvo recortar bordes), el blanco y negro vale, pero no podrás ni corregir páginas torcidas. Usando escaneos en gris a 300dpi nos aseguramos una definición de imagen suficiente para trabajar sobre las páginas. Por supuesto, si hay imágenes en color, en vez de gris tendremos que usar RGB de 24 bits.

El procesado de las páginas consiste básicamente en corregir la inclinación (rotación), separar las páginas dobles (si se ha escaneado así), ajustar márgenes y tamaño de página, aplicar alguna mejora opcional a la imagen (sharpen, etc.) y finalmente convertir la imagen en escala de grises a blanco y negro de 1 bit. Este último paso es el más importante y se debe realizar al terminar todo lo mencionado. La imagen de 300dpi en gris se agranda al doble de tamaño normalmente, y se aplica un threshold del valor adecuado para convertir a blanco/negro de 600dpi. Para terminar, se eliminan pequeñas marcas (despeckling) limpiando así la imagen.

Se utiliza 1bit por pixel (blanco y negro) porque el texto no requiere otro tipo de imagen y porque es el formato óptimo para compresión (usando algoritmos de fax como group 4, o los recientes JBIG2 o JB2). Con la resolución adecuada, que suele ser 600dpi, obtenddrás resultados excelentes que aprovecharán al máximo la definición de la impresora (si por el contrario tratas de imprimir una página en grises, obtendrás halftone con casi cualquier impresora). La imagen monocroma, al ser mostrada en pantalla a tamaño reducido, se convierte automáticamente a grises y lo verás perfectamente.

Si el libro tuviese imágenes, habría que extraerlas tal cual en su tamaño original y sin aplicar ningún threshold. Las imágenes suelen ser reproducidas en papel usando halftone, por lo que es necesario eliminar el halftone (con un desenfoque gaussiano con sigma apropiado para que borre los puntos y reduciendo después su tamaño hasta el mínimo necesario). Finalmente, pueden aplicarse mejoras en las imágenes como correción de niveles y sharpen.

Todos los procesos explicados se pueden (y se deben) hacer automáticamente con el magnífico programa ruso ScanKromsator (algo lioso al empezar), o con alguna alternativa como ScanTailor (recomendado para principiantes, porque lo hace todo automáticamente), el programa de línea de comandos unpaper, o la propia automatización que ofrece Photoshop (no recomendable, salvo para casos muy particulares).

El texto y las imágenes deben codificarse de forma distinta, porque son tipos de datos distintos y existen codecs específicos para cada uno. Para el texto, que será imagen de 1 bit, suelen usarse codecs de fax, como CCITT Group 4 (en TIFF o PDF), JBIG2 (en PDF) o JB2 (en DjVu). Las imágenes son imágenes de tono contínuo y deben codificarse con JPEG, JPEG2000 o cualquier otro para imágenes de este tipo (con transiciones suaves entre colores).

Yo uso DjVu porque soporta JB2 y es el algoritmo más eficiente. Este formato usa una capa para el texto (imagen de 1 bit) y otra opcional para las imágenes (codificadas en IW44, similar a JPEG2000). El problema de DjVu es que tendréis que usar los programas de línea de comandos de código abierto que existen, pero superan con creces a los de pago. Tenéis DjVuLibre (para todo) y minidjvu (para codificación de imágenes de 1 bit multipágina, que es con lo que aplasta al formato PDF). Puedo deciros que he comprimido diccionarios de más de 900 páginas a 600dpi en 40MB. Con PDF, lo hagáis como lo hagáis, es imposible conseguir estos resultados (como mucho llegaréis a 100MB en el mejor de los casos si sabéis lo que hacéis).

Sobre el texto OCR con DjVu, utilizo ABBYY FineReader sobre las páginas procesadas a 1 bit. Como FR no soporta DjVu, hay que usar un hack llamado FRFGrab para extraer el texto reconocido y su información posicional. Esto requiere usar la version 9 de FR, porque en las anteriores no es posible desactivar la rotación automática de las páginas (aunque estén ya enderezadas, da igual) y porque FRFGrab no soporta las nuevas versiones. Como un un hack un poco chapucero, a veces hay problemas con la ordenación de las páginas, y hay que parchear antes el batch de FR y siempre revisar los resultados a mano. Lo único bueno es que no es necesario pagar una licencia de FineReader, porque con la versión de prueba basta. Además de FR, también puede usarse Tesseract (que es mucho más flexible y es entrenable para reconocer otros idiomas, como inglés antiguo, pero los resultados con idiomas comunes no son tan buenos como los de FR).

Este peñazo es todo. Si alguien tiene dudas que yo pueda resolver, estaré encantado de ayudar.

pedete

Re: Cómo escanear libros

Sab Jul 16, 2011 6:44 am

Responder citando

Un par de comentarios (tres) sobre cosas que he leído:

1) ocropus no es un programa de reconocimiento por sí mismo, sino que es una especie de interfaz que soporta varios motores OCR (como Tesseract) y puede convertir entre distintos formatos de resultados OCR.

2) Para escanear bien un libro, hay que usar un escáner plano y al menos 300dpi. Con una cámara de fotos difícilmente obtendrás 300dpi en tamaño A4, salvo que sea una buena cámara. Además, tendrás que aplastar la página del libro para que quede plana al hacer la foto, ya que corregir la deformación después es muy difícil y nunca quedará tan bien como si lo hicieses con un escáner plano. Siguiendo con las pegas, es necesaria iluminación uniforme o usar algoritmos específicos al binarizar la página (el threshold normal no vale), y onviene tener un soporte para la cámara y el libro. La cámara también producirá deformación por la lente que tendrás que corregir.

Pueden obtenerse buenos resultados con una cámara de fotos, pero nunca podrán ser comparables a los de un escáner, aunque a veces es necesario tener experiencia para llegar a apreciar los bordes afilados en las letras escaneadas, en comparación con las formas redondeadas y como "bañadas por las olas" en las letras fotografiadas.

Todo esto es aplicable tan solo si queremos producir un libro en formato imagen. Si por el contrario solo interesa extraer el texto, no importa mucho la mala iluminación, las deformaciones o la baja resolución de las fotos. Basta aplicar un sharpen pasado de vueltas y el OCR irá casi tan bien como con una imagen de calidad.

3) El problema de escanear libros gordos junto al lomo se puede resolver con libros de tapa dura quitando las tapas. Para esto, desde la última página, buscad la última página en papel más duro, que se llama guarda y que une la última página del libro con la portada, ocultando la encuadernación en el lomo. Despegando (tirando) la guarda de la última página, llegaréis al lomo. Con una navaja, podéis cortar el trozo de tela que une el bloque de páginas a las tapas. Así podréis escanear el bloque de páginas con total libertad. Después, podéis pegar con cola y con cuidado para que no se pringuen otras partes, las última página de nuevo a la guarda, y poner también cola en los bordes del bloque de página donde habéis cortado la tela que lo sujetaba. Los libros quedan perfectos y manejables (aunque no he probado con libros de más de 1000 páginas), y en la bliblioteca no se darán ni cuenta. La cola hay que dejarla secar un día entero bajo presión, y un par de días más hasta que se pierde el olor a cola.

HerrK

Re: Cómo escanear libros

Sab Jul 16, 2011 9:52 am

Responder citando

Hola, pedete, bienvenido.

Tus instrucciones me han decidido a escanear algunos libros que tengo, me parecen interesantes, y no están en la red.

Soy novato escaneando libros, así que usaré el programa ScanTailor, ya os comentaré los problemas que tenga o, si todo va bien, publicaré los resultados.

Gracias por la información.

P.D.: Un manual detallado, eso sí en inglés (o ruso), de ScanTailor se puede encontrar en esta wiki.

pedete

Re: Cómo escanear libros

Sab Jul 16, 2011 9:19 pm

Responder citando

Perfecto!

Scan Tailor también está hecho por un ruso, y es de código abierto (no como SK, que se distribuye compilado, sin licencia, y solo se ejecuta en Windows y creo que wine).

ST ofrece menos control que SK, pero hace todo automáticamente: desde reconocer las imágenes hasta corregir la iluminación y calcular márgenes y tamaño de página. Los resultados no son los mejores y a veces incluso se equivoca, pero te ahorras muchísimo trabajo. Con un par de veces que lo uses aprenderás cómo funciona.

ST te devolverá las páginas del libro limpias, rectas y perfectamente ajustadas al tamaño y los márgenes, incluso si trabajas con cámara de fotos (no recomendable). Estas páginas resultantes pueden ser compiladas en un PDF de imagen con texto OCR oculto, usando Acrobat o FineReader.

Recomiendo a todo el que se anime que empiece haciendo una prueba con un libro pequeño (de menos de 100 páginas), ya que empezar con uno gordo puede ser desmoralizador.

HerrK

Re: Cómo escanear libros

Dom Jul 17, 2011 11:08 am

Responder citando

He hecho una primera prueba de escaneo y edición con Scan Tailor. Ha funcionado todo muy bien, aunque aún no había escaneado el libro completo. Las páginas escaneadas han quedado impecables (o, por lo menos, eso me parece a mí) sin dar demasiado trabajo, requiriendo solo un escáner plano que actualmente son muy asequibles.

Curiosamente, el mayor problema que me he encontrado ha sido juntar todos los tifs individuales, que Scan Tailor te deja agrupados en una carpeta, en un único archivo pdf. Eso sólo lo sabía hacer insertando las imágenes en un documento de Word con riesgo de alterar la escala de los tifs y el tamaño de página. Después de investigar un poco, he acabado resolviéndolo con el programa Image to PDF de Govert's Tools que va como una seda, por eso lo recomiendo y enlazo aquí.

Dentro de un rato colgaré el libro escaneado (reconozco que seleccionado con malas intenciones), cuando haya acabado de repasar todos los detalles.

HerrK

Re: Cómo escanear libros

Mar Jul 19, 2011 1:49 am

Responder citando

Bueno, listo, ahí queda mi primer intento de escaneo. Agradeceré que me comuniquéis cualquier defecto.

eLink de eMule

Albiac, Gabriel - Althusser Cuestiones del leninismo.pdf [42.20 Mb]

No me estoy quedando con los lectores, es un libro de cuando Albiac aseguraba que era marxista, leninista y casi incluso maoista. Lo escaneo para que no caiga en el olvido.

pedete

Re: Cómo escanear libros

Mar Jul 19, 2011 5:53 am

Responder citando

Hola. Mi eMule no encuentra fuentes. Uso Kad y el servidor eDonkeyserver No2. ¿Qué servidor usas tú? Tengo el ipfilter y una lista de servidores mínima de 7. Si es necesario desactivaría el filtro, pero podrías decirme en qué servidor estás tú, o bien la IP y puerto de alguna fuente? Gracias.

edit: lo he comprobado y borre el ipfilter no sé cuándo, así que no eso no es.

RebeldeMule