Register Guidelines E-Books Today's Posts Search

Go Back   MobileRead Forums > Non-English Discussions > Forum Français > Software

Notices

Reply
 
Thread Tools Search this Thread
Old 03-15-2013, 09:17 AM   #1
Agenor
Junior Member
Agenor began at the beginning.
 
Posts: 2
Karma: 10
Join Date: Mar 2013
Location: France, Divonne-les-Bains (Ain)
Device: Kindle
Problem of conversion of a pdf document

I started a conversion of a pdf document in French, downloaded from http://gallica.bnf.fr/ and you can see from the attached image the problem I encountered such as **ERROR reading page 11 from ……. With the options: _ocr_ _rt à _p 11-12 ,
!! Internal error, master-infobmp.width-0 != dst_width=560.
A solution to this problem?
Thanks in advance
Attached Thumbnails
Click image for larger version

Name:	probleme k2pdfopt.PNG
Views:	505
Size:	21.3 KB
ID:	102903  
Agenor is offline   Reply With Quote
Old 03-15-2013, 03:19 PM   #2
Arios
A curiosus lector!
Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.
 
Arios's Avatar
 
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
Right now my time is short so I'm going to do it in French.

1. Je ne connais pas le logiciel de conversion que tu a utilisé, mais je ne pense pas que le problème soit lié à la langue du pdf. Ce sont plutôt les premières pages (ref Gallica) qui, à mon avis, empêchent la conversion. Avec des infos plus précises sur ton logiciel de conversion, tu peux jeter un coup d'oeil ici et créer un nouveau post: https://www.mobileread.com/forums/forumdisplay.php?f=184
2. Le scan de La reine Isabeau est de très mauvaise qualité tu devras donc mettre des dizaines d'heures à la révision du texte et si le français n'est pas ta langue maternelle, ce sera encore plus difficile.
3. La conversion des pdf, même de bonne qualité, n'est pas donnée d'avance: il y a toujours du travail à faire.
4. Si tu réussis la conversion il faudra ensuite que tu utilises un logiciel de nettoyage: Scan Tailor (freeware) est le meilleur choix.

Suggestion: comme tu es en France, pourquoi ne pas acheter le livre (en format poche) et le scanner correctement? Ce serait plus rapide que d'utiliser le pdf de Gallica et simplifierait énormément ta révision.
Arios is offline   Reply With Quote
Advert
Old 03-15-2013, 09:15 PM   #3
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Quote:
Originally Posted by Arios View Post
.../...
2. Le scan de La reine Isabeau est de très mauvaise qualité tu devras donc mettre des dizaines d'heures à la révision du texte et si le français n'est pas ta langue maternelle, ce sera encore plus difficile.../...
En ce qui concerne les ouvrages du XIXe, la qualité du scan paraît souvent dégradée à ceux qui sont habitués à scanner plutôt des œuvres contemporaines.

En l'occurrence, je classerais le PDF images de La reine Isabeau de Gallica parmi leurs scans de qualité standard. J'ai fait un essai d'OCR sur deux pages (pages 100 et 101 du PDF images) en utilisant Fine Reader 11 et vous laisse juger du résultat (voir copie d'écran et zip joint).

Il est vrai qu'il faut en refaire une lecture attentive mais il me semble qu'une telle tâche ne présente rien d'inhabituel ni d'insurmontable... Il est bien possible qu'il y ait par ailleurs quelques pages qui posent problème. Cela se produit, sinon souvent, du moins parfois. Avec un peu de patience, on apprend à faire avec.
Attached Thumbnails
Click image for larger version

Name:	OCR.png
Views:	500
Size:	512.5 KB
ID:	102963  
Attached Files
File Type: zip Isabeau100.html.zip (4.1 KB, 441 views)

Last edited by roger64; 03-15-2013 at 10:02 PM.
roger64 is offline   Reply With Quote
Old 03-15-2013, 10:25 PM   #4
Arios
A curiosus lector!
Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.
 
Arios's Avatar
 
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
J'ai "déjà vu" des scans du XIXe siècle: en fait j'essaie présentement de traiter un scan du XVIIIe et c'est pas de la tarte!

En passant, si tu as un lien vers la version libre et gratuite de Fine Reader 11, n'hésite pas à le partager parce qu'au Canada c'est, avec les taxes et tout, environ 200$. Ceci étant dit, j'ai fait des tests avec la version d'essai (9 je pense) et ce logiciel semble très bon, encore faut-il se l'acheter!

J'ai évalué le scan de Gallica en fonction des logiciels libres et gratuits dont je dispose. Bien entendu si l'op a Fine Reader 11 ce sera d'autant plus facile pour lui et c'est tant mieux!

Roger le "rien d'inhabituel ni d'insurmontable" dépend de bien des choses et pour des "scaneurs" occasionnels cela peut être "particulier et emmerdant."

Avec mes logiciels voilà ce que donne l'une des pages:
Attached Thumbnails
Click image for larger version

Name:	pbouts.jpg
Views:	503
Size:	436.9 KB
ID:	102966  

Last edited by Arios; 03-15-2013 at 10:56 PM.
Arios is offline   Reply With Quote
Old 03-16-2013, 04:57 AM   #5
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Ta copie d'écran est celle du PDF images, je crois.

Le travail de correction restant après l'OCR est techniquement simple mais inévitable.

Fine Reader 11 est un logiciel commercial. Bien que partisan du libre, je l'utilise en raison de sa qualité et parce que je n'ai pas encore trouvé son équivalent dans le libre. J'ai bien scanné quelques livres avec Cuneiform (et j'en ai rendu compte sur le fil W2X), mais ce n'est jouable en pratique que pour des scans excellents sur des livres neufs. Dès que la qualité du livre se dégrade un peu, ou qu'il y a des italiques, etc. la part "manuelle" du travail augmente un peu trop à mon goût.
roger64 is offline   Reply With Quote
Advert
Old 03-16-2013, 07:31 AM   #6
Arios
A curiosus lector!
Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.
 
Arios's Avatar
 
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
Salut Roger,

Merci de ta réponse. La copie d'écran est celle d'une page nettoyée avec Scan Tailor: l'image d'origine est mauvaise, même si je comprends que c'est un peu la norme: sans Scan Tailor, je ne suis pas certain que l'ocr pourrait se faire sans réécrire le récit à la main . Je crois, n'est-il pas vrai, que FineR substitue de "vrais" caractères à ceux de l'image (ce qui expliquerait la qualité de ta page: as-tu essayé sans FR?).

De bons outils valent en effet souvent le prix qu'on en demande. Je pense d'ailleurs sérieusement à acheter Fine Reader.

Tout cela ne règle pas le problème d'Agenor: lui suggères-tu d'acheter Fine Reader? Pour un usage ponctuel c'est sans doute un peu trop, d'où ma suggestion.

C'est toi le spécialiste: connais-tu le logiciel qu'il a utilisé d'apès la capture d'écran soumise?
Arios is offline   Reply With Quote
Old 03-16-2013, 08:15 AM   #7
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
erreur

Last edited by roger64; 03-16-2013 at 08:18 AM.
roger64 is offline   Reply With Quote
Old 03-16-2013, 08:17 AM   #8
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Je ne suggère rien. Je me bornais à signaler que le scan de Gallica était d'une qualité standard.

Être spécialiste c'est ignorer ce qui se passe à côté et c'est mon cas. Je crois que k2pdfopt est un logiciel en ligne de commande qui permet de retailler des pdf mais pas un logiciel d'OCR. Je n'ai jamais voulu trop me lancer là dedans mais il paraît qu'il obtient d'excellents résultats dans certains cas de figure pas trop acrobatiques.

En ce qui me concerne, je produis aussi des PDF au format IPAD (9,7 pouces) avec une marge d'un pouce, ce qui permet à celui qui le souhaite de les rogner avec Briss pour les utiliser sur une tablette plus petite. Mais c'est une possibilité très théorique - bien que ce soit très facile à faire - et je ne suis pas sûr que quelqu'un l'ai jamais fait...

Last edited by roger64; 03-16-2013 at 08:21 AM.
roger64 is offline   Reply With Quote
Old 03-16-2013, 10:29 AM   #9
Agenor
Junior Member
Agenor began at the beginning.
 
Posts: 2
Karma: 10
Join Date: Mar 2013
Location: France, Divonne-les-Bains (Ain)
Device: Kindle
En réponse aux questions précédentes : comment j’ai obtenu le pdf en question.
C’est à partir de http://gallica.bnf.fr/ark:/12148/bpt...=zevaco.langFR
En cliquant sur « télécharger » (en haut à droite de l’écran, sous informations détaillées), puis en choisissant PDF dans
"""
Choisissez le format du fichier:
PDF
JPEG (Seulement page à page sur la page en cours)
"""
L'image jointe représente la page que je soumettais au logiciel K2pdfopt
Attached Thumbnails
Click image for larger version

Name:	exemplaire du pdf.PNG
Views:	518
Size:	114.4 KB
ID:	102978  
Agenor is offline   Reply With Quote
Reply


Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
PDF conversion problem with quotes. tadhgadams Calibre 2 09-19-2010 08:47 PM
PDF Conversion Problem - He xtreme50 Calibre 1 05-24-2010 03:42 AM
Problem with PDF conversion Bombatomica PDF 6 02-13-2010 08:27 AM
PDF to Mobi conversion problem DavidJD Calibre 6 10-04-2009 11:27 AM
Problem with conversion from RTF to PDF julius Calibre 3 09-24-2009 12:01 PM


All times are GMT -4. The time now is 06:56 AM.


MobileRead.com is a privately owned, operated and funded community.