RebeldeMule

Cómo escanear libros

Información, diálogos y dudas sobre Rebeldemule y los programas para compartir materiales (emule, torrent, telegram, descargas directas...).

Cómo escanear libros

Nota Vie May 05, 2006 10:42 am
Creo que muchos tenemos en casa libros que nos parecen valiosísimos y que por desgracia no se editan más o no se han publicado nunca en muchos países y que nos gustaría compartir.
Por lo que he leído hasta ahora del tema de escaneo de libros, el trabajo requiere incluso mucho más esfuerzo que el ripeo de DVDs, por lo que lo más aconsejable sería tratar de ahorrar energías buscando los mejores métodos existentes para tal propósito.


Creo que una buena guía ya la tenemos en el hilo Ripeo de libros de DXC.

En este hilo hice una pregunta que nunca se respondió.

Yo tengo una duda a partir de un problema: durante el escaneo, sobre todo si el libro tiene muchas páginas, resulta imposible dejar márgenes en la zona que está más cerca del lomo del libro y por lo tanto este borde, que está curvado y no plano, resulta deformado. Esto es un problema porque el OCR no lo reconoce bien, lo que hace que tendría que editar página a página a mano.
No se me ocurre otra solución que desencuadernar el libro y escanear las páginas por separado, lo cuál sería realmente una lástima. Existe otra manera de resolver este problema que no sea de esta forma tan brutal?


Bueno, aquí dejo mi pregunta y ojalá que aparezca alguien que me la pueda resolver, así empiezo lo antes posible con el libro que prometí en ese hilo.
Gracias.

Nota Vie Jun 30, 2006 3:13 am
pues debes desencuadernar el libro, y ya que tengas las hojas, las escaneas con scanner de bandeja, osea los que no son de camaplana y si es posible de scaneo de doble cara, para que sea rapido.
O si puedes, escanea en cama plana,

PD, Yo he escaneado un libro sobre Francisco Villa que en JPG mide como 700 mb.
Asi que si no puedes con una, puedes con otra ;)

Nota Dom Jul 02, 2006 12:04 pm
Muchas gracias por la información, NOVAKANE. No estoy muy claro en la diferencia entre los scanners de camaplana y de bandeja, pero imagino que al que tengo acceso sea de bandeja. En cuanto a tener que desencuadernar los libros me resulta realmente una lástima, pero si no queda más remedio lo haré de todas formas.
Podría empezar con un libro que tengo en mi poder y que ya está bastante estropeado por lo viejo y usado que está: Historia de mi vida, autobiografía de Charles Chaplin. Si hay alguien interesado me pongo a la tarea lo antes posible.
saludos

Nota Vie Jul 21, 2006 4:08 pm
Relacionado con el tema del mal escaneo de libros (bordes cortados, márgenes oscuros, lineas dobladas):

Científicos de Xerox resuelven el problema del escaneado de libros

Publicidad nada encubierta:

Bookdrive - Scanner Automático de Libros

Imagen

El ATIZ BookDrive es una nueva adición para cualquier productor masivo de libros. Siendo un scaner de libros de escritorio, puede scanear a 500 páginas por hora. Hacer esto manualmente sería de 100 hojas por hora. Para aquellos que traten de piratear libors, tengan a la mano $50,000 dolares para empezar.



Y no hace mucho vi en Muy Interesante un escaner que era literalmente como una servilleta, se posaba sobre la etiqueta de una botella de vino y la captaba a gran resolución. Parece también un buen sistema, si las hacen a dos caras para escanear con el libro cerrado y "la servilleta" en medio se puede ganar mucho tiempo.

Nota Vie Jul 21, 2006 4:24 pm
50,000$ que pena es que me acabo de comprar una zapatillas y me gasté los ahorros que si no, le pego un repaso a Vázquez-Figueroa que se iba a cagar por la pata'bajo.


¿Cuántos libros habrá que escanear para que te salga rentable?????

Nota Vie Jul 21, 2006 5:07 pm
piramo666 escribió:¿Cuántos libros habrá que escanear para que te salga rentable?????


Échale unos 50.000 :D

Pero bueno, cuanda salga otra que además de escanear haga café pillamos la vieja.

rubiera escribió:
Creo que una buena guía ya la tenemos en el hilo Ripeo de libros de DXC.

Gracias.


No se si estoy tonto yo o han quitado la opcion de nuevo usuario...
¿como me doy de alta en los foros de divxclasico.com?

Nota Sab Jul 29, 2006 1:17 pm
DivxClasico ha desabilitado la opcion de crear nuevos usuarios y solo pueden acceder a los foros los usuarios registrados anteriormente.

Salu2

Nota Sab Jul 29, 2006 1:21 pm
De todas maneras si no puedes acceder te posteo uno de los comentarios que se hacen ahi, que creo que es lo mas relevante.

Spartakku escribió:Yo llevo unos 6 años "ripeando" libros para internet. Incluso antiguamente tuve una web (el Proyecto Espartaco), que tuvo su momento de gloria, pero que tuve que cerrar por amenazas de demandas de un par de editoriales (Critica y Anagrama).

El tema con los libros es que practicamente no existen sistemas "automáticos" de producción de ebooks. Efectivamente, el mejor programa de OCR es el FineReader, que ya va en su versión 8 (muy buena). Pero no hay absolútamente ningún programa que el OCR te lo arroje totalmente limpio, y si quieres un ebook en, por ejemplo, formato para word (u otros editores de texto), tienes que necesariamente hacer una post corrección por lectura directa de todo el libro, que es el método utilizado en los varios grupos que nos dedicamos a esto.

Otra opción, que es la que usamos en un grupo en que digitalizamos exclusivamente libros de derecho, es hacer los libros en pdf de imagen. Son muchisimo más pesados que un ebook en word, pero nosotros lo preferimos porque, por una parte no se hace necesaria la corrección por lectura, y por otra los libros son exactamente idénticos al original, incluyendo paginado y cosas así, lo que es muy importante cuando escaneas libros técnicos que luego puedes necesitar para estudiar, trabajar, citar en investigaciones, etc. Además, la corrección por lectura en este tipo de libros demanda muchísmo trabajo, debido a su gran extensión, el uso de lenguaje técnico y la gran cantidad de notas a pie de página que es necesario agregar.

Tengo un manual para hacer estos pdf de imagenes, usando el FineReader 8 y el acrobat 7, si te interesa puedo subirlo a la mula o mandártelo a tu correo.

Para una guía sobre como digitalizar para word usando el finereader 7 (aunque también puede valer para el 8 ) puedes ir a la siguientes web (que pertenece a uno de los grupos en que participo): http://biblioteca.d2g.com/biblioteca/tu ... caneo.html

Cualquier duda, estoy a tu disposición, tal vez te pueda colaborar. De hecho, ahora mismo estoy tratando de conseguir el libro de Truffaut "El Cine Según Hitchcock" para digitalizarlo (un amigo tratará de escanearlo y yo lo editaré). Cuando esté listo los pondré en emule y avisaré aquí.

Un saludo.

Nota Dom Jul 30, 2006 8:50 pm
Gracias, ehlibre. Efectivamente resuelve mis dudas.
Tengo un par de libros descatalogados que me gustaría compartir y con la opcion de pdf vale.
Spartakku menciona que tiene un manual para hacer estos pdf de imagenes, usando el FineReader 8 y el acrobat 7. Sería mucha casualidad que lo tuvieras, ¿verdad? :D
Tampoco debe ser muy dificil. Me pongo a ello.

Nota Dom Jul 30, 2006 9:22 pm
Pues creo que es esto lo que estabas buscando:

Spartakku escribió:Y acá les dejo el tutorial de cómo hacerlo. Aunque ojo, el tutorial sólo trata de la edición, una vez que el libro ya ha sido escaneado, es únicamente para ver como armar bien el pdf y que el trabajo quede de la mejor forma posible.


eLink de eMule Tutorial.de.edicion.para.hacer.libro.en.formato.pdf.de.imagen.pdf  [1.19 Mb]

Tutorial de edicion

Nota Mié Feb 14, 2007 10:05 pm
Retomando este hilo, ¿alguién sabe si se ha producido alguna novedad/mejora en el escaneo de libros?

Nota Mié Feb 14, 2007 10:26 pm
Yo estoy en las mismas en que quedó este hilo. En realidad me gustaría escanear unos cuantos libros que tengo y que serían de interés seguramente para Rebeldemule, pero no tengo escaner en casa y en el trabajo nunca tengo el suficiente tiempo.

Por otro lado he pensado que (aunque yo lo hago sin problemas) a mucha gente no le gusta leer en la pantalla de la computadora y pasan de los elibros y me da cosa gastar esfuerzos por gusto.

Quizás podríamos hacer un hilo con ofrecimientos de libros para escanear y si existe una buena demanda que justifique el esfuerzo, entonces se hace todo lo posible. ¿Qué piensas tú y lo demás?

Nota Mié Feb 28, 2007 11:38 am
Aunque vuestro principal problema no es el OCR aqui os dejo esto.


http://google.dirson.com/post/2790-soft ... en-source/
Google relanza un software OCR con licencia Open Source

[31-08-2006] Ayer os contábamos las críticas que estaba recibiendo la calidad de los documentos PDF de 'Google Books', los cuales no permiten acceder a los textos, y solamente podemos ver las páginas de los libros en forma de imágenes.

Estas imágenes proceden del escaneo de las obras a través de una tecnología propia, con la cual Google accede a los libros de diversas bibliotecas (en las cuales están las obras que ya no disponen de copyright) y, mediante un software OCR (Reconocimento Óptico de Caracteres), extrae los textos para que los usuarios podamos localizar cualquier término a través de las búsquedas en 'Google Books'.

Ahora, según se anuncia en este post, Google ha liberado, con licencia 'Open Source', parte de la tecnología OCR que utilizan dentro de la compañía. Se trata de 'Tesserat OCR', y son unas librerías C/C++ de desarrollo, creadas originalmente por HP entre 1985 y 1995, y que fueron abandonadas hasta que Google y la Universidad de Nevada Las Vegas han retomado el proyecto.

'Tesserat OCR' es utilizado por diversos organismos, y por ejemplo la Universidad japonesa de Tohoku ofrece esta página con la cual podemos enviar cualquier imagen escaneada y obtener los textos a través de este software. Nosotros lo hemos probado con con esta página obtenida de un libro de Shakespeare de 'Google Books' y nos ha devuelto este texto con algunos fallos de reconocimiento.



Cómo escanear de manera no destructiva un libro a 10 centavos la página..
http://www.openlibrary.org/details/openlibrary/leaf7

Nota Lun Jun 04, 2007 1:39 pm
Google continua con el tema del OCR

http://www.genbeta.com/2007/04/11-ocrop ... ra-los-ocr
OCRopus, propuesta open source de Google para los OCR
11 abril 2007

Google ha anunciado su proyecto OCRopus, que intenta mostrarse como un avance en el terreno de la OCR, es decir el reconocimiento óptico de cárcteres. Además OCRopus estará disponible en la licencia de Apache 2.0, con lo que vemos que Google apuesta fuertemente por tecnologías de código abierto. De esta forma se quiere lanzar un sistema OCR que sea realmente bueno para convertir documentos y en general para un uso en nuestro día a día, los interesados en el tema, ya sabéis, no debéis perderos detalle en la página oficial del proyecto .

Siguiente

Volver a Asamblea

Antes de empezar, un par de cosas:

Puedes usar las redes sociales para enterarte de las novedades o ayudarnos a difundir lo que encuentres.
Si ahora no te apetece, puedes hacerlo cuando quieras con los botones de arriba.

Facebook Twitter
Telegram YouTube

Sí, usamos cookies. Puedes ver para qué las usamos y cómo quitarlas o simplemente puedes aceptarlo.