Cómo escanear libros : Asamblea

Cómo escanear libros

Publicar una respuesta

48 mensajes • Página 3 de 4 • 1, 2, 3, 4

HerrK

Re: Cómo escanear libros

Mar Jul 19, 2011 8:44 am

Responder citando

Hola, pedete

El fallo fue mío, me quedó la mula desconectada por descuido. Ahora ya está conectada. Me conecto por Kad y te paso mi IP y los puertos de la mula por MP. ¿Sabes de alguna web recomendable para colgar el libro escaneado?

pedete

Re: Cómo escanear libros

Mar Jul 19, 2011 7:26 pm

Responder citando

Hola.

He estado un rato y no encontraba fuentes. Luego he añadido manualmente tu fuente, y aparece por un momento 0/1 fuentes, pero inmediatamente vuelve a ponerse a 0. Creo que no estoy haciendo nada mal.

No tengo mucha experiencia en hacer públicos libros escaneados, pero te recomiendo subirlos a Library Genesis, en http://gen.lib.rus.ec/ y luego en Upload > Web uploader (usuario: genesis, contraseña: upload). También es grande la biblioteca Library.nu, pero es mucho peor y a mí no me gusta su política.

HerrK

Re: Cómo escanear libros

Mar Jul 19, 2011 9:19 pm

Responder citando

Al final he recordado tiempos antiguos y la he subido a Mediafire:
http://www.mediafire.com/?4e9y3s4kcv7rs8r

Espero que de ahí se pueda bajar sin problema.

pedete

Re: Cómo escanear libros

Mar Jul 19, 2011 11:12 pm

Responder citando

Hola.

Enhorabuena por tu libro!

Si admites críticas, aquí van algunos consejos para mejorar tus próximos ebooks:

1) La portada del libro ocupa 34MB porque es una imagen en color a 600dpi. Convendría reducir su resolución a unos 150dpi, no solo por ahorrar espacio, sino porque usar más de 250dpi en imágenes en color/gris apenas mejora la calidad al imprimir (el halftone de las impresoras no llega a 300lpi casi nunca) y la resolución de las pantallas de ordenador suele estar alrededor de 150dpi normalmente. Reduciendo la portada a 150dpi y comprimiéndola en JPEG2000 con pérdidas y calidad media con Acrobat (en Advanced > PDF optimizer...), el PDF final no llega a 8MB. Si además comprimes las imágenes en blanco/negro en JBIG2 con pérdidas, el tamaño final se queda en 1.8MB.

2) El libro no tiene OCR. El OCR permitiría hacer búsquedas, copiar texto, y que el libro fuese indexado por buscadores. Habría que hacer el OCR como texto oculto (conservando la imagen), usando FineReader, Acrobat, o incluso existen soluciones open source para Linux como Tesseract y hocr2pdf. Con Acrobat puedes al mismo tiempo convertir las imágenes monocromas (el texto) a fuentes vectoriales (ver OCR ClearScan), consiguiendo así reducir el tamaño del PDF bastante más que con JBIG2 (solo con libros muy grandes; en el caso de tu libro, el tamaño aumenta).

3) Usando Acrobat, podrías crear marcadores para cada capítulo y sección del libro (botón derecho sobre cada página donde se quiera crear un marcador).

4) El archivo PDF contiene metadatos con la fecha de creación y bibliotecas que han creado el PDF. Los paranoicos pueden eliminar los metadatos con Acrobat desde Document > Examine document..., de forma que así no podrá conocerse cuándo se creó un ebook.

pedete

Re: Cómo escanear libros

Mié Jul 20, 2011 12:02 am

Responder citando

Por cierto, he visto algunas páginas que Scan Tailor ha alineado mal (como la 83) o algunas otras con manchas o mal escaneadas (la 87 y la 94). Siempre hay que comprobar todas las páginas antes de comprimirlas en un PDF, y corregirlas si es posible, aunque en este caso son problemas menores, porque se puede leer el texto.

HerrK

Re: Cómo escanear libros

Mié Jul 20, 2011 8:42 am

Responder citando

Hola, pedete, muchas gracias por tu trabajo y tus críticas. Voy a corregir los siguientes aspectos:

1) Portada con definición y peso excesivos. Seguiré tus consejos y bajaré la definición a 150 dpi. (8 MB me parece un tamaño mucho más razonable para un libro. Lo que no conozco son los sistemas de compresión JPEG2000 ni JBIG2. Intentaré informarme sobre eso.

2) Desconocía completamente la posibilidad de poner al libro un texto oculto además de la imagen. Mi experiencia con el OCR es que los resultados varían mucho en función de la calidad de impresión del libro (tamaño de la letra y mancha de la tinta), este libro tiene letra pequeña y mal papel, es de los que dan muchos errores. El experimento del OCR lo dejaré para futuros escaneos.

3) ¿Con qué Acrobat se pueden crear los marcadores?

4) No soy paranoico. Por ahora no es necesario eliminar los metadatos.

5) Echaré un vistazo a las páginas 83, 87 y 94 a ver qué puedo hacer.

Muchas gracias otra vez, pedete.

HerrK

Re: Cómo escanear libros

Mié Jul 20, 2011 8:47 pm

Responder citando

Corregida la portada, ahora todo el libro pesa 9,5 MB. Corregido también el error de alineación de la página 83 y parcialmente las manchas de escaneado de la página 94.

eLink de eMule

Albiac, Gabriel - Althusser Cuestiones del leninismo.pdf [9.53 Mb]

Y vuelto a subir a Mediafire: http://www.mediafire.com/?0cx74i5qxzt9a9k

Subido también a scribd: http://es.scribd.com/doc/60476071/Albia ... -Leninismo

No lo voy a tocar más. Ya queda así. El próximo libro que escanee probaré las opciones de compresión del Acrobat Professional.

pedete

Re: Cómo escanear libros

Mié Jul 20, 2011 9:24 pm

Responder citando

Hola.

El formato PDF soporta varios formatos de imagen para fuentes, gráficos vectoriales, imágenes monocromas, e imágenes en gris/color. Uno de estos formatos es JBIG2, que es por ahora el mejor códec disponible en PDF para comprimir imágenes en blanco y negro, con o sin pérdida de calidad (con pérdida de calidad busca caracteres similares y los codifica como una única forma).

Para imágenes de "tono contínuo" en color o gris (con transiciones de color sin saltos bruscos de un píxel a otro contiguo), existe el famoso JPEG. Posteriormente sacaron JPEG2000, similar a JPEG pero con ciertas mejoras en calidad de imagen y otras opciones. Además, JPEG2000 es un formato contenedor de imagen en varias capas, donde cada capa puede usar un códec distinto para optimizar la compresión.

Para trabajar con PDF, de momento la mejor herramienta es Adobe Acrobat Professional, por desgracia (porque es de pago). Ya sabe cada uno lo que debe hacer... La versión gratuita de Acrobat llamada "Adobe Acrobat Reader", que servía para leer PDFs pero no permitía modificarlos, ahora se llama simplemente "Adobe Reader" y no sirve.

Usando Acrobat, puedes recomprimir las imágenes en blanco/negro con JBIG2, haciendo que el PDF ocupe muchísimo menos. Igualmente, puedes reducir la resolución de las imágenes en color/gris y comprimirlas en JPEG2000 con pérdidas. Todo esto se hace desde el menú Advanced > PDF Optimizer..., en la sección Images. Para imágenes en color/gris: reducir resolución a 150dpi para imágenes de más de 150dpi, compresión JPEG2000 con calidad media, tamaño de la cuadrícula 2048 píxeles. Para imágenes monocromas: conservar resolución, compresión JBIG2 con pérdidas. Por último, comprobad el resto de opciones en las demás secciones porque tienen opciones muy útiles que nos harán ahorrar algo más de espacio (Fuentes, Transparencia, Descartar objetos, Descartar datos de usuario y Limpiar) y haced el PDF compatible con la versión más reciente de Acrobat comprimiendo el archivo completo.

Advertencia: Nunca jamás uséis la opción de Acrobat Document > Reduce file size, porque es criminal y se destruirá la calidad de las imágenes.

Con estos trucos tendrás tu libro en 1.8MB, que empieza a ser un tamaño mucho más razonable si queremos distribuirlos por Internet o tenemos en mente tener una buena colección.

Sobre el OCR, sería una capa de texto invisible. Es decir, tu PDF seguiría teniendo el mismo aspecto (se mostrarían las imágenes originales en pantalla y al imprimir), pero tendría la ventaja de poder buscar texto y copiar texto en el portapapeles. Por supuesto, el texto reconocido por OCR siempre tendrá pequeños errores, pero serán pocos y siempre es mejor con OCR que sin él. Además, el tamaño del archivo apenas aumenta al añadir OCR (de 1.8MB a 2.4MB). Usando Acrobat, puedes añadir texto OCR desde: Document > OCR Text Recognition > Recognize Text Using OCR..., después selecciona: All pages, Primary OCR Language: Spanish, PDF Output Style: Searchable Image (Exact) (esto último es importante, porque si no, corregiría la inclinación de las imágenes monocromas y así las destrozaría).

Para terminar, también con Acrobat puedes crear marcadores para las secciones del libro. Para esto, haz clic con el botón derecho sobre la página a la que quieres que apunnte el marcador, y selecciona Add bookmark. Se desplegará (si no lo está ya) una barra a la izquierda de la ventana de Acrobat con los marcadores que vayas creando. Haciendo clic con el botón derecho sobre cada marcador, puedes cambiar su nombre y propiedades (como ponerlo en negrita, cambiar el zoom al usar ese marcador, etc.). Si arrastras con el ratón un marcador, puedes anidarlo dentro de otro existente (para subsecciones del libro).

Por último, recuerda guardar el archivo PDF tras los cambios que hayas hecho con Acrobat.

Gracias por la nueva versión. Voy a descargarla ahora mismo.

HerrK

Re: Cómo escanear libros

Mié Jul 20, 2011 9:50 pm

Responder citando

Hola, pedete

Entendido que debo utilizar el Adobe Acrobat Professional. Cuando lo tenga instalado miraré cómo usar esas funciones que indicas.

pedete

Re: Cómo escanear libros

Vie Jul 22, 2011 11:49 pm

Responder citando

Aunque parezca mucha información y muchos fallos por corregir, apenas hay mucho más que debas saber para crear libros de calidad escaneados en PDF. Con el tiempo automatizarás mentalmente el proceso, e irás aprendiendo o descubriendo tú mismo nuevos trucos para casos particulares.

Por otra parte, hay ciertos libros que por su formato no podrán procesarse fácilmente (libros con texto en color, imágenes bajo el texto, o sin márgenes), pero con lo que sabes y los consejos explicados sobre Acrobat, ya puedes digitalizar la gran mayoría de libros existentes obteniendo resultados muy buenos.

Si tienes cualquier duda, puedes preguntarme en este hilo o por mensaje privado, y estaré encantado de ayudarte si soy capaz.

He observado que algunas páginas de tu libro tienen el texto junto al lomo ligeramente combado. Con libros de tapa blanda, a veces uno no se da cuenta de que alguna página no ha sido suficientemente aplanada contra el cristal del escáner. Otras veces, no es posible aplicar más presión contra el lomo, o existe el riesgo de estropear el escáner o de que el carro roce contra el cristal. En estos casos, puedes corregir "a mano" la deformación en el original escaneado con un editor de imágenes (como GIMP/Photoshop). Otra opción más sencilla que ofrece Scan Tailor (y que no tiene ScanKromsator) es el dewarping automático o manual. De momento solo está disponible en la versión 1.0.0 beta, que no se distribuye en la web oficial compilada, pero que el autor ha subido y enlazado aquí: http://www.diybookscanner.org/forum/vie ... =100#p9412 . Para libros con un formato muy común y una pequeña deformación (como en tu libro), los resultados del dewarp automático pueden ser buenos. Otras veces, sin embargo, se hace un lío y hay que hacerlo a mano. En cualquier caso, debes evitar aplicarlo cuando no sea necesario, y siempre comprobar que los resultados sean correctos.

Haller

Re: Cómo escanear libros

Mié Ago 03, 2011 1:37 am

Responder citando

Saludos a todos! Después de unas vacaciones intempestivas y tempestuosas...

Celebro que pedete haya presentado el ScanTailor en el foro, y que ya esté siendo aprovechado. Un gran programita. Lo hallé hace un mes, buscando una manera eficaz de hacer alguna "postproducción" a las páginas escaneadas, que usé "crudas" en los primeros eBooks que armé y compartí hace meses, y ante los cuales quedé muy disconforme: muy pesados, imprácticos para leer e imprimir... Lo utilicé a lo largo del mes de julio, con otros eBooks que ya toca compartir, y ahora estoy menos disconforme.

Gracias pedete por todas las útiles observaciones. Coincido en que hacer el proceso de OCR es muy útil y necesario, pero usar el Acrobat para el OCR, no me parece una buena opción; según mis pruebas, por mucho, más eficaz es el Abbyy FineReader. Los resultados que da con libros impresos toscamente o disparejos, o incluso con fotocopias pobres, sorprenden positivamente, incluso a 300 DPI. Tenía una versión gratuita del Sprint 6 que vino con un escáner, pero no soportaba los tifs servidos por el ScanTailor. Después de varias, varias, pruebas y errores (interfaces en cirílico puro, cracks inválidos o infectados) hallé una versión del AbbyyFineReader 9 que es instalar y usar, y corre con total estabilidad. Se descarga por torrent, en esta página de The Pirate Bay.

Entonces, yo lo veo así: ScanTailor para procesar las páginas escaneadas; AbbyFineReader para pasar el OCR y crear un PDF con los TIFS del ScanTailor; el Acrobat para reemplazar las páginas fallidas, crear bookmarks...

También prefiero usar el Acrobat para las portadas, las comprime muy bien, de manera automática: suelto un TIF de 12 megas y me da una página PDF de 400 KB, que no se ve mal y puedo añadir al PDF principal.

@ HerrK: si te haces con el FineReader, podrías cargarle también el PDF del libro de Albiac para practicarle el OCR, y verás que los resultados son más que útiles. A 600 dpi como está, dará pocos errores y permitirá que una larga cita no tenga que ser copiada tecleando. Para ese u otro libro, lo recomendable es marcar la opción "Thorough Reading", menos rápida y más precisa. Salud!

pedete

Re: Cómo escanear libros

Jue Ago 04, 2011 7:36 am

Responder citando

Hola y gracias por tus comentarios.

Cuando yo empecé, Scan Tailor no existía. Surgió como una alternativa sencilla a ScanKromsator para que cualquiera pudiera utilizarlo. Quien quiera hacer buenos libros, debe usar ScanKromsator, porque ofrece un control total sobre todas las opciones que ST decide por sí mismo y no deja tocar.

Ciertamente, FineReader es el mejor OCR, pero para todo lo demás es bastante malo. Para procesar las imágenes escaneadas, debemos usar Scan Tailor (o ScanKromsator), pero nunca FineReader ni Acrobat (no sirven para esto). Una vez tengamos las imágenes procesadas y las portadas en color a 150dpi, tenemos Acobat y FineReader. Ambos pueden unir las imágenes en PDF y hacer OCR. El OCR de FR es algo mejor que el de Acrobat, pero Acrobat supera ampliamente a FineReader en compresión y edición del PDF.

En resumen, yo pasaría de FineReader y usaría solo Scan Tailor y Acrobat, pero si alguien quiere aprovechar la mejor calidad del OCR de FR, y la compresión de PDF y otras opciones de Acobat (como añadir marcadores), puede seguir estos pasos:

1- Escanear las páginas en gris o RGB (nunca en blanco y negro).
2- Procesar las páginas con Scan Tailor (y comprobar que el resultado sea correcto)
3- Crear un batch de FR con las imágenes procesadas, desactivando las opciones de limpiar páginas y corregir rotación automáticamente (solo a partir de la v9 es posible desactivarlo). Leer todas las páginas. Guardar el resultado en un PDF de imagen exacta con texto OCR oculto (creo que lo llama "imagen sobre texto").
4- Abrir el PDF de FR con Acrobat. Añadir las portadas en color. Ir a Advanced > PDF Optimizer y seleccionar: imágenes en color y gris: reducir resolución a 150dpi y comprimir en JPEG2000 calidad media; imágenes monocromas: no reducir resolución y comprimir en JBIG2 con pérdidas. Para terminar, añadir marcadores y otros.

Así tendremos un PDF pequeño y con el mejor OCR existente.

Otra opción interesante es el ClearScan de Acrobat, pero lo dejaré para próximas entregas...

HerrK

Re: Cómo escanear libros

Jue Ago 04, 2011 2:14 pm

Responder citando

Yo, por ahora aún no he conseguido hacerme con el Adobe Acrobat Professional. Sin embargo he actualizado mi Abby Fine Reader a la versión 10 , que se encuentra con facilidad en The Pirate Bay.

Aún no he tenido tiempo de aprender a dominar el programa, pero ya he hecho los primeros ensayos de paso de los tif de ScanTailor a pdf. Hace los pdf de texto de un tercio del peso que ImageToPDF, aunque se les nota peor calidad (son más incómodos de leer).

pedete

Re: Cómo escanear libros

Jue Ago 04, 2011 4:46 pm

Responder citando

Te refieres a que tarda más en cargar las páginas y el desplazamiento no es suave? Yo también he tenido este problema, pero pensé que sería porque mi ordenador es lento. Supongo que tiene que ver con el tiempo que tarda en descomprimir cada página. Con DjVu nunca me ha pasado.

HerrK

Re: Cómo escanear libros

Jue Ago 04, 2011 6:02 pm

Responder citando

No, me refiero a que las letras son menos nítidas, peor perfiladas, faltas de "tinta" (con píxels blancos que hubieran debido ser negros). Se pueden reconocer, pero no saltan a la vista, la lectura es más trabajosa.

Publicar una respuesta

48 mensajes • Página 3 de 4 • 1, 2, 3, 4

Volver a Asamblea

RebeldeMule