Bonjour
édition
Les confessions de Marion Delorme. Il s'agit d'un gros EPUB dont l'odt est joint ici.
L'EPUB comprend quelques illustrations et une police incorporée. Il a été réalisé dans les conditions habituelles.
Résolution des PDF images.
Les PDF image que l'on peut télécharger chez Gallica ont une résolution moyenne de 300 ppp qui se prête parfaitement aux travaux d'OCR.
J'ai remarqué que chez Google books, on trouve désormais de PDF images très agréables à lire d'une résolution bien supérieure (800 ppp environ). L'inconvénient, est qu'ils me semblent convenir moins bien aux travaux d'OCR. Sur mon -vieil- ordinateur, le délai de reconnaissance est multiplié par vingt... Parfois, dans sa miséricorde, Google joint un EPUB, brut d'OCR, qui peut servir de base de travail. Mais, ce n'est pas encore un cas général.
Si quelqu'un a des tuyaux à ce sujet...