Quote:
Originally Posted by Arios
Salut JPS,
Je ne suis pas modo ici, mais je pense:
1) que tes images sont trop grandes et
2) qu'il faut éviter de diffuser ici, si c'est le cas, des textes qui ne sont pas dans le domaine public.
En ce qui concerne ton problème, voici ce que je ferais.
- J'utiliserais Calibre pour convertir le pdf au format docx et
- ensuite j'utiliserai, avec Libre Office, l'extension "MyTTXTcleaner" de eBookLuke pour éliminer les fins de lignes inappropriées. (Tu devrais trouver l'extension ici: http://lukesblog.it)
- Le texte ainsi nettoyé pourrait alors être sauvegardé au format epub.
Cela semble un peu tortueux, mais ça devrait fonctionner. Sinon tu peux utiliser avec Ebook-edit de Calibre la fonction regex pour restructurer le texte et enlever les fins de paragraphes non pertinentes. Pour cela, cependant, je ne peux t'aider, mais Doitsu le pourrait sans doute.
Finalement un autre possibilité pourrait être d'utiliser un logiciel ORC comme ABBYY FineReader qui est plutôt efficace dans ce genre de situation, mais son prix d'achat est élevé.
|
OK Arios !
Merci pour le tuyau ! En effet, j'aurais pu (dû) faire les images plus petites et "éviter" de montrer des "exemples" de textes non-publics ! Mes excuses :-( !
Je vais essayer les manips que tu indiques -je ne connais pas le add-on "MyTTXTcleaner" ! Je vais essayer d'abord la fonction REGEX de Ebook-edit de Calibre ! Sinon, j'essayerai la manip avec Libre Office !
Cordialement,
J-P.