View Single Post
Old 06-30-2012, 12:00 PM   #160
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 1,444
Karma: 846401
Join Date: Jan 2009
Device: KoboGlo
Bonjour,

Édition

Le chic et le chèque, un recueil de 30 nouvelles de Richard O'Monroy (1893).

Qualité du scan de Gallica

C'est le quinzième recueil de Richard O'Monroy que je transcris à partir d'un scan de Gallica. Le scan de ce numéro 15 est d'une qualité irrégulière, allant de la page - presque - nette à la page floue, voire hachée... Le tiers environ de l'ouvrage est difficilement exploitable pour ces raisons. Pour reprendre la comparaison du message précédent, avec ce livre, on a quitté l'autoroute du numéro 14 pour emprunter une route de montagne sinueuse et mal entretenue.

J'ai été contraint de renoncer à utiliser l'OCR Linux à compter la page 100 environ où je me suis trouvé face à un maquis inintelligible. Fine Reader 9, s'y retrouve après un recadrage manuel et en dépit de quelques difficultés.

Il semble anormal que la lisibilité d'un même livre soit si inconstante, page après page. Contrôle qualité, es-tu là?

Tags parasites

J'ai eu à supprimer sélectivement quelques tags parasites <br /> dans le style corps de texte (Textbody). La regex suivante (Sigil) supprime le premier de ces tags pour chaque paragraphe corps de texte. Le cas échéant, vous pouvez alors avoir à l'exécuter plusieurs fois.
Code:
<p class="Textbody">(?!</p>).*\K<br[^>]*?/>
roger64 is offline   Reply With Quote