View Single Post
Old 06-27-2012, 12:10 PM   #159
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 1,495
Karma: 846401
Join Date: Jan 2009
Device: KoboGlo
Bonjour

Édition

Tout en rose!, un recueil de nouvelles de Richard O'Monroy (1902).

Solution Linux - Quelques remarques sur Cuneiform/OCRcorrector

Ceci est le deuxième livre réalisé avec cette solution Linux. Je confirme qu'elle est utilisable et correcte, ce qui est en soi une bonne nouvelle. J'ai donc décidé de continuer à l'utiliser.

Les limitations d'emploi.

Cuneiform, dans de bonnes conditions de température et de pression affiche 96% de taux de reconnaissance. Entendons-nous, il s'agit le plus souvent de la police corps de texte, qui représente, il est vrai, l'immense majorité des signes d'un roman lambda. Mais dès qu'il y a des traînées grisâtres, du flou, des italiques, des polices un peu exotiques, cela chute dramatiquement. En faisant une comparaison qui vaut ce qu'elle vaut, on pourrait dire qu'avec cette voiture, on peut aller très loin (un livre), très vite (en une seule étape) mais qu'il vaut mieux prendre l'autoroute. On ne peut donc pas tout traiter. Préférez les romans - de gare ou pas - aux traités spécialisés et donnez-lui des scans pas trop dégradés, sinon...

Parmi les particularités que j'ai remarquées sans les expliquer, Cuneiform se montre plus tolérant que FineReader 9 pour traiter les zones de texte obliques (pas la tour de Pise quand même). Il respecte bien les paragraphes mais il a tendance à saupoudrer le texte de sauts de ligne dont il est cependant facile de se débarrasser.

Le pré-traitement

On peut améliorer un peu le résultat: le pré-traitement des PDF par Briss, leur conversion en image par pdfimages sont vraiment très efficaces. Je me souviens d'erreurs grossières (et rares) de cadrage automatique avec FineReader 9 qui m'obligeaient pour certains ouvrages à refaire ce cadrage en manuel. Ce type de phénomène appartient au passé si vous utilisez Briss.

Ensuite il y a les corrections, la majeure et la mineure. La majeure, celle d'OCRcorrector permettrait de corriger (à ce qu'il indique) environ un quart, voire un tiers, des fautes repérées. Cette proportion est à prendre avec précaution mais enfin, on peut supposer qu'elle élève un peu le pourcentage de 96%. Ne connaissant pas Python, je ne peux en dire davantage.

La mineure utilise sed: elle se contente de corriger des fautes récurrentes de transposition mais elle est efficace. Elle se révèle bien adaptée à Cuneiform parce que celui-ci transcrit le plus souvent littéralement, caractère par caractère, ce qui fait qu'il est assez facile de le corriger. (ex: c8té →côté) Certes, il y a des fois où il fait preuve d'une imagination débordante, par exemple pour transcrire le à isolé (six ou sept variantes possibles...) L'autre avantage est que ce type de correction reste sous le contrôle de l'utilisateur lambda qui peut donc le perfectionner au fil du temps.

Les pistes d'amélioration

Il y aurait bien la solution d'adapter un second moteur d'OCR (Tesseract?). L'auteur d'OCRcorrector - qui ne donne plus signe de vie depuis deux mois - avait indiqué qu'il l'avait essayé et avait été déçu. Néanmoins, s'il était possible de choisir de le brancher à titre d'alternative, ce serait sans doute un plus. Il faudrait pour cela connaître Python...

Par ailleurs, je vais ausi continuer au fil du temps à enrichir le fichier fix.sed.

Last edited by roger64; 06-28-2012 at 06:56 AM.
roger64 is online now   Reply With Quote