03-15-2013, 09:17 AM | #1 |
Junior Member
Posts: 2
Karma: 10
Join Date: Mar 2013
Location: France, Divonne-les-Bains (Ain)
Device: Kindle
|
Problem of conversion of a pdf document
I started a conversion of a pdf document in French, downloaded from http://gallica.bnf.fr/ and you can see from the attached image the problem I encountered such as **ERROR reading page 11 from ……. With the options: _ocr_ _rt à _p 11-12 ,
!! Internal error, master-infobmp.width-0 != dst_width=560. A solution to this problem? Thanks in advance |
03-15-2013, 03:19 PM | #2 |
A curiosus lector!
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
|
Right now my time is short so I'm going to do it in French.
1. Je ne connais pas le logiciel de conversion que tu a utilisé, mais je ne pense pas que le problème soit lié à la langue du pdf. Ce sont plutôt les premières pages (ref Gallica) qui, à mon avis, empêchent la conversion. Avec des infos plus précises sur ton logiciel de conversion, tu peux jeter un coup d'oeil ici et créer un nouveau post: https://www.mobileread.com/forums/forumdisplay.php?f=184 2. Le scan de La reine Isabeau est de très mauvaise qualité tu devras donc mettre des dizaines d'heures à la révision du texte et si le français n'est pas ta langue maternelle, ce sera encore plus difficile. 3. La conversion des pdf, même de bonne qualité, n'est pas donnée d'avance: il y a toujours du travail à faire. 4. Si tu réussis la conversion il faudra ensuite que tu utilises un logiciel de nettoyage: Scan Tailor (freeware) est le meilleur choix. Suggestion: comme tu es en France, pourquoi ne pas acheter le livre (en format poche) et le scanner correctement? Ce serait plus rapide que d'utiliser le pdf de Gallica et simplifierait énormément ta révision. |
03-15-2013, 09:15 PM | #3 | |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Bonjour
Quote:
En l'occurrence, je classerais le PDF images de La reine Isabeau de Gallica parmi leurs scans de qualité standard. J'ai fait un essai d'OCR sur deux pages (pages 100 et 101 du PDF images) en utilisant Fine Reader 11 et vous laisse juger du résultat (voir copie d'écran et zip joint). Il est vrai qu'il faut en refaire une lecture attentive mais il me semble qu'une telle tâche ne présente rien d'inhabituel ni d'insurmontable... Il est bien possible qu'il y ait par ailleurs quelques pages qui posent problème. Cela se produit, sinon souvent, du moins parfois. Avec un peu de patience, on apprend à faire avec. Last edited by roger64; 03-15-2013 at 10:02 PM. |
|
03-15-2013, 10:25 PM | #4 |
A curiosus lector!
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
|
J'ai "déjà vu" des scans du XIXe siècle: en fait j'essaie présentement de traiter un scan du XVIIIe et c'est pas de la tarte!
En passant, si tu as un lien vers la version libre et gratuite de Fine Reader 11, n'hésite pas à le partager parce qu'au Canada c'est, avec les taxes et tout, environ 200$. Ceci étant dit, j'ai fait des tests avec la version d'essai (9 je pense) et ce logiciel semble très bon, encore faut-il se l'acheter! J'ai évalué le scan de Gallica en fonction des logiciels libres et gratuits dont je dispose. Bien entendu si l'op a Fine Reader 11 ce sera d'autant plus facile pour lui et c'est tant mieux! Roger le "rien d'inhabituel ni d'insurmontable" dépend de bien des choses et pour des "scaneurs" occasionnels cela peut être "particulier et emmerdant." Avec mes logiciels voilà ce que donne l'une des pages: Last edited by Arios; 03-15-2013 at 10:56 PM. |
03-16-2013, 04:57 AM | #5 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Bonjour
Ta copie d'écran est celle du PDF images, je crois. Le travail de correction restant après l'OCR est techniquement simple mais inévitable. Fine Reader 11 est un logiciel commercial. Bien que partisan du libre, je l'utilise en raison de sa qualité et parce que je n'ai pas encore trouvé son équivalent dans le libre. J'ai bien scanné quelques livres avec Cuneiform (et j'en ai rendu compte sur le fil W2X), mais ce n'est jouable en pratique que pour des scans excellents sur des livres neufs. Dès que la qualité du livre se dégrade un peu, ou qu'il y a des italiques, etc. la part "manuelle" du travail augmente un peu trop à mon goût. |
03-16-2013, 07:31 AM | #6 |
A curiosus lector!
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
|
Salut Roger,
Merci de ta réponse. La copie d'écran est celle d'une page nettoyée avec Scan Tailor: l'image d'origine est mauvaise, même si je comprends que c'est un peu la norme: sans Scan Tailor, je ne suis pas certain que l'ocr pourrait se faire sans réécrire le récit à la main . Je crois, n'est-il pas vrai, que FineR substitue de "vrais" caractères à ceux de l'image (ce qui expliquerait la qualité de ta page: as-tu essayé sans FR?). De bons outils valent en effet souvent le prix qu'on en demande. Je pense d'ailleurs sérieusement à acheter Fine Reader. Tout cela ne règle pas le problème d'Agenor: lui suggères-tu d'acheter Fine Reader? Pour un usage ponctuel c'est sans doute un peu trop, d'où ma suggestion. C'est toi le spécialiste: connais-tu le logiciel qu'il a utilisé d'apès la capture d'écran soumise? |
03-16-2013, 08:15 AM | #7 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
erreur
Last edited by roger64; 03-16-2013 at 08:18 AM. |
03-16-2013, 08:17 AM | #8 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Je ne suggère rien. Je me bornais à signaler que le scan de Gallica était d'une qualité standard.
Être spécialiste c'est ignorer ce qui se passe à côté et c'est mon cas. Je crois que k2pdfopt est un logiciel en ligne de commande qui permet de retailler des pdf mais pas un logiciel d'OCR. Je n'ai jamais voulu trop me lancer là dedans mais il paraît qu'il obtient d'excellents résultats dans certains cas de figure pas trop acrobatiques. En ce qui me concerne, je produis aussi des PDF au format IPAD (9,7 pouces) avec une marge d'un pouce, ce qui permet à celui qui le souhaite de les rogner avec Briss pour les utiliser sur une tablette plus petite. Mais c'est une possibilité très théorique - bien que ce soit très facile à faire - et je ne suis pas sûr que quelqu'un l'ai jamais fait... Last edited by roger64; 03-16-2013 at 08:21 AM. |
03-16-2013, 10:29 AM | #9 |
Junior Member
Posts: 2
Karma: 10
Join Date: Mar 2013
Location: France, Divonne-les-Bains (Ain)
Device: Kindle
|
En réponse aux questions précédentes : comment j’ai obtenu le pdf en question.
C’est à partir de http://gallica.bnf.fr/ark:/12148/bpt...=zevaco.langFR En cliquant sur « télécharger » (en haut à droite de l’écran, sous informations détaillées), puis en choisissant PDF dans """ Choisissez le format du fichier: JPEG (Seulement page à page sur la page en cours) """ L'image jointe représente la page que je soumettais au logiciel K2pdfopt |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
PDF conversion problem with quotes. | tadhgadams | Calibre | 2 | 09-19-2010 08:47 PM |
PDF Conversion Problem - He | xtreme50 | Calibre | 1 | 05-24-2010 03:42 AM |
Problem with PDF conversion | Bombatomica | 6 | 02-13-2010 08:27 AM | |
PDF to Mobi conversion problem | DavidJD | Calibre | 6 | 10-04-2009 11:27 AM |
Problem with conversion from RTF to PDF | julius | Calibre | 3 | 09-24-2009 12:01 PM |