View Single Post
Old 02-23-2011, 01:22 AM   #43
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 1,456
Karma: 846401
Join Date: Jan 2009
Device: KoboGlo
OK, j'ai maintenant le dernier ADE sur mon XP virtualisé. Paré pour la suite.

Je voulais vous faire part d'une suggestion et d'un conseil.

Suggestion: exporter au format xhtml.

Une idée - provisoire - mais quelle idée est éternelle?

W2X, bien que montrant d’excellentes capacités notamment en matière de transcription de texte, n’est pas encore pleinement satisfaisant:
- manque de feuille de style unique
- meta-données
- images non proportionnelles
- ...

Pourquoi, dans l’immédiat ne pas l’utiliser pour exporter d’OpenOffice simplement au format xhtml, parfaitement reconnu par Sigil et ensuite finir l’EPUB avec Sigil?

Il faut naturellement n’exporter qu’un fichier unique que l’on tronçonnera ensuite avec Sigil.
On n’aura ainsi plus qu’une seule feuille de style, ce qui facilitera les expérimentations en attendant la version stable de W2X.

Les inconvénients potentiels?

- je ne suis pas sûr que les sauts de page «manuels» soient répercutés mais on peut les répéter avec Sigil.
- comme l’on crée un produit hybride, en cas de "bug", il est difficile d'identifier le coupable (W2X ou Sigil). Mais les récents progrès de l'un et de l'autre rendent peut-être cette solution viable.

Conseil: Fine Reader. Prévention ou la méthode Cochonou

Ceci n’est que mon expérience avec les fichiers PDF de Gallica, c’est à dire de vieux livres.

Lorsque vous vous préparez à attaquer une image PDF de 350 pages, qui fera travailler FR pendant deux heures, il est souvent préférable de faire un essai préalable sur quelques pages choisies dans le milieu du livre.

Si le résultat est bon, on lance le programme automatique.
S’il est défectueux, il faudra continuer avec la prévention.
- soit en créant un gabarit utilisateur
- soit en tronçonnant ( d'où la méthode Cochonou) le fichier image PDF selon votre capacité de travail (par blocs de 50 ou 100 pages par exemple) et en délimitant manuellement les zones de texte à lire, page par page. Il faut cinq à dix minutes pour cinquante pages en moyenne. Le temps passé à l'OCR se rallonge mais ce n'est rien par rapport à ce que vous gagnerez en vitesse de correction.

Au final, les différences peuvent être spectaculaires. J’ai remarqué que les pages contenant beaucoup de blanc (en fait, il s’agit le plus souvent d’un vieux papier piqueté de points noirs), posent beaucoup de problèmes à FR qui commet en pratique de grosses erreurs.

Mon conseil est donc : plus vous avez de «blanc», plus utile sera la délimitation manuelle des zones de texte. Comme c’est un travail fastidieux (mais moins pénible que celui de corriger les erreurs d’OCR), pensez à le diviser. A chaque jour suffit sa peine.

Last edited by roger64; 02-23-2011 at 01:33 AM.
roger64 is offline   Reply With Quote