Register Guidelines E-Books Search Today's Posts Mark Forums Read

Go Back   MobileRead Forums > Non-English Discussions > Forum Français > E-Books

Notices

Reply
 
Thread Tools Search this Thread
Old 06-11-2012, 03:26 PM   #151
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Améliorer la présentation de sa feuillle de style.

Sortie brute du convertisseur, la feuille de style peut ressembler à ça
Spoiler:

Code:
body {font-family:'Times New Roman'}
span.smcpIncise {font-family: 'LinuxLibertineOCRegular';font-style:normal}
span.smcpTypeA {font-family: 'LinuxLibertineOCRegular';font-style:normal; margin-left: -1em}
span.smcpTypeV {font-family: 'LinuxLibertineOCRegular';font-style:normal;margin-left: 0em}
a:link {color:#000080;text-decoration:underline}
p.smcpCentrage {margin-left:0.0cm;margin-right:0.0cm;margin-top:0.499cm;margin-bottom:0.499cm;border:none;padding:0;text-indent:0.0cm;text-align:center;font-family: 'LinuxLibertineOCRegular';font-size:83%}
p.Italdroite {margin-left:0.0cm;margin-right0.499cm;margin-top:0.499cm;margin-bottom:0.499cm;border:none;padding:0;text-indent:0.0cm;text-align:right;font-style:italic;font-weight:normal;font-size:83%}
p.let {margin-left:0.0cm;margin-right:0.0cm;margin-top:0.0cm;margin-bottom:0.0cm;border:none;padding:0;background-color:transparent;text-indent:0.0cm;text-align:justify}
p.smcpDroite {margin-left:0.0cm;margin-right:0.499cm;margin-top:0.499cm;margin-bottom:0.499cm;border:none;padding:0;text-indent:0.0cm;text-align:right;font-family: 'LinuxLibertineOCRegular';font-style:normal;font-weight:normal;font-size:83%}
p.Centrage {margin-left:0.0cm;margin-right:0.0cm;margin-top:0.499cm;margin-bottom:0.499cm;border:none;padding:0;text-indent:0.0cm;text-align:center;font-size:83%}
p.Textbody {margin-left:0.0cm;margin-right:0.0cm;margin-top:0.0cm;margin-bottom:0.0cm;border:none;padding:0;background-color:transparent;text-indent:0.9cm;text-align:justify}
p.Header {margin-left:0;margin-right:0;margin-top:0.6cm;margin-bottom:0.6cm;border:none;padding:0;text-align:center;font-style:italic;font-weight:normal;font-size:83%}
h2 {page-break-before:always;margin-left:0.0cm;margin-right:0.0cm;margin-top:1.499cm;margin-bottom:0.601cm;border:none;padding:0.0cm;text-indent:0.0cm;text-align:center;font-family:'Times New Roman',serif;font-style:normal;font-variant:normal;font-weight:normal;text-decoration:none;text-transform:none;clear:left}
.frameGraphics {margin-left:0;margin-right:0;margin-top:0;margin-bottom:1em;border:none;padding:0}
.frameFrame {margin-left:0.201cm;margin-right:0.201cm;margin-top:0.201cm;margin-bottom:0.201cm;border:0.05cm solid #000000;padding:0.15cm}
.frameGraphics p {margin-left:0;margin-right:0;margin-top:0;margin-bottom:0}
.frameFrame p {margin-left:0.201cm;margin-right:0.201cm;margin-top:0.201cm;margin-bottom:0.201cm}
body {background-color:transparent}

Voici une solution efficace. Si le Fichier.css est sur le bureau:
Code:
roger@lmde64 ~ $ cd ~/Bureau
roger@lmde64 ~/Bureau $ sort Fichier -o Fichier
roger@lmde64 ~/Bureau $ sed -i 's/{/{\n\t/;s/:/: /g;s/;/;\n\t/g;s/}/;\n}\n/' Fichier
roger@lmde64 ~/Bureau $
Avec le traitement ci-dessus (Linux), votre feuille de style ressemble désormais à ça:
Spoiler:

Code:
a: link {
	color: #000080;
	text-decoration: underline;
}

body {
	background-color: transparent;
}

body {
	font-family: 'Times New Roman';
}

.frameFrame {
	margin-left: 0.201cm;
	margin-right: 0.201cm;
	margin-top: 0.201cm;
	margin-bottom: 0.201cm;
	border: 0.05cm solid #000000;
	padding: 0.15cm;
}

.frameFrame p {
	margin-left: 0.201cm;
	margin-right: 0.201cm;
	margin-top: 0.201cm;
	margin-bottom: 0.201cm;
}

.frameGraphics {
	margin-left: 0;
	margin-right: 0;
	margin-top: 0;
	margin-bottom: 1em;
	border: none;
	padding: 0;
}

.frameGraphics p {
	margin-left: 0;
	margin-right: 0;
	margin-top: 0;
	margin-bottom: 0;
}

h2 {
	page-break-before: always;
	margin-left: 0.0cm;
	margin-right: 0.0cm;
	margin-top: 1.499cm;
	margin-bottom: 0.601cm;
	border: none;
	padding: 0.0cm;
	text-indent: 0.0cm;
	text-align: center;
	font-family: 'Times New Roman',serif;
	font-style: normal;
	font-variant: normal;
	font-weight: normal;
	text-decoration: none;
	text-transform: none;
	clear: left;
}

p.Centrage {
	margin-left: 0.0cm;
	margin-right: 0.0cm;
	margin-top: 0.499cm;
	margin-bottom: 0.499cm;
	border: none;
	padding: 0;
	text-indent: 0.0cm;
	text-align: center;
	font-size: 83%;
}

p.Header {
	margin-left: 0;
	margin-right: 0;
	margin-top: 0.6cm;
	margin-bottom: 0.6cm;
	border: none;
	padding: 0;
	text-align: center;
	font-style: italic;
	font-weight: normal;
	font-size: 83%;
}

p.Italdroite {
	margin-left: 0.0cm;
	margin-right0.499cm;
	margin-top: 0.499cm;
	margin-bottom: 0.499cm;
	border: none;
	padding: 0;
	text-indent: 0.0cm;
	text-align: right;
	font-style: italic;
	font-weight: normal;
	font-size: 83%;
}

p.let {
	margin-left: 0.0cm;
	margin-right: 0.0cm;
	margin-top: 0.0cm;
	margin-bottom: 0.0cm;
	border: none;
	padding: 0;
	background-color: transparent;
	text-indent: 0.0cm;
	text-align: justify;
}

p.smcpCentrage {
	margin-left: 0.0cm;
	margin-right: 0.0cm;
	margin-top: 0.499cm;
	margin-bottom: 0.499cm;
	border: none;
	padding: 0;
	text-indent: 0.0cm;
	text-align: center;
	font-family:  'LinuxLibertineOCRegular';
	font-size: 83%;
}

p.smcpDroite {
	margin-left: 0.0cm;
	margin-right: 0.499cm;
	margin-top: 0.499cm;
	margin-bottom: 0.499cm;
	border: none;
	padding: 0;
	text-indent: 0.0cm;
	text-align: right;
	font-family:  'LinuxLibertineOCRegular';
	font-style: normal;
	font-weight: normal;
	font-size: 83%;
}

p.Textbody {
	margin-left: 0.0cm;
	margin-right: 0.0cm;
	margin-top: 0.0cm;
	margin-bottom: 0.0cm;
	border: none;
	padding: 0;
	background-color: transparent;
	text-indent: 0.9cm;
	text-align: justify;
}

span.smcpIncise {
	font-family:  'LinuxLibertineOCRegular';
	font-style: normal;
}

span.smcpTypeA {
	font-family:  'LinuxLibertineOCRegular';
	font-style: normal;
	 margin-left:  -1em;
}

span.smcpTypeV {
	font-family:  'LinuxLibertineOCRegular';
	font-style: normal;
	margin-left:  0em;
}

Nota: la commande ci-dessus rajoute un point-virgule avant l'accolade fermante, ce qui peut provoquer des erreurs difficiles à détecter. Si cela ne vous plaît pas, il vous suffit de le supprimer dans la commande elle-même.

Et les Windowsiens?

Ils peuvent essayer ce logiciel gratuit qui fonctionne aussi pour Linux (Wine).
Free CSS Toolbox
http://www.blumentals.net/csstool/index.php

Last edited by roger64; 06-11-2012 at 04:42 PM.
roger64 is offline   Reply With Quote
Old 06-14-2012, 04:22 AM   #152
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Code pour les images

J'ai admiré dans le nouveau guide utilisateur de Sigil un code remarquablement compact et efficace pour les images. Il s'agit de l'image de couverture et des images standard centrées.

Spoiler:

Code:
1. - Insérer un container SVG (600x800)

<div class="coverimage">
    <svg xmlns="http://www.w3.org/2000/svg" height="100%" preserveAspectRatio="xMidYMid meet" version="1.1" viewBox="0 0 600 800" width="100%" xmlns:xlink="http://www.w3.org/1999/xlink">
      <image height="800" width="600" xlink:href="../Images/cover.png"></image>
    </svg>
  </div>

2. - Insérer une image centrée non pleine page

<div class="image"><img alt="" src="../Images/image001.png" /></div>

3. - Ce que vous devez rajouter sur votre feuille de style

div.coverimage {
	text-align: center;
}

div.image {
	text-align: center;
	margin-top: 1em;
	margin-bottom: 1em;
	page-break-inside: avoid;
}

img {
	max-width: 100%;
}

Rajouter une ombre portée

L'auteur du guide a fait des copies d'écran au format png et a ensuite rajouté manuellement une ombre portée en utilisant Gimp. Il aurait été aussi possible d'utiliser un traitement par lot avec la commande suivante:
Code:
for file in *.png; do convert $file \( +clone -background black -shadow 40x2+10+15 \) +swap -background none -layers merge +repage shadow-$file; done
Ce code produit une image clonée nommée avec le préfixe "shadow". Elle utilise un arrière-plan transparent puisqu'il s'agit d'images png.
roger64 is offline   Reply With Quote
Advert
Old 06-21-2012, 12:30 PM   #153
Arios
A curiosus lector!
Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.
 
Arios's Avatar
 
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
Bonjour à tous et à roger64,

Les infos de ce fil, avec le temps et c'est normal, sont devenues techniques, spécifiques. Puis-je revenir en arrière, pour mieux sauter par la suite?

Merci!

Rétrospective

j'ai lu le fil en entier et il est bien dommage que le dialogue avec Coolmicro ait été rompu; les infos que vous vous échangiez roger étaient très pertinentes et utiles, surtout pour un débutant qui cherche la meilleure façon de créer ses livrels.

Sans le moins du monde vouloir réactiver la polémique concernant les valeurs des logiciels pouvant être utilisés pour créer des livrels, j'aimerai néanmoins évoquer mon expérience à ce propos; cela pourrait peut-être aider ceux et celles qui cherchent encore "la" bonne solution.

Atlantis Word Processor est me semble-t-il le logiciel le plus simple et le plus facile à utiliser dans la mesure où le fichier source est bien construit. AWP dans sa toute dernière version beta (1.6.5.9. b8) peut lire aussi bien les doc que les odt. Le fichier epub est le plus souvent bien construit, la feuille de style clean et il n'y a pas trop de codes insérés dans le texte. Le nettoyage avec Sigil est donc rapide. Cependant AWP n'est pas parfait et reste beacucoup moins complet que Writer par exemple. Par ailleurs, et pour des raisons de compatibilité paraît-il, AWP débaptise les styles pour y substituer des numéros : .p0, .p1 etc. Pas très parlant!

Avant d'aller plus loin, je voudrais mentionner que la grande majorité des logiciels que j'utilise sont des logiciels "libres" (et "gratuit"!) mais AWP ne l'est pas. Cependant, sans réactiver une guérilla à ce propos, si l'on passe par le site de Softpedia.com on peut obtenir ce logiciel pour 10$ ce qui me semble pertinent (au prix régulier je passerai mon tour). Je suis désolé si je donne l'impression de faire de la pub pour AWP. Très sincèrement j'essaie simplement de fournir une info ici. Il faut admettre toutefois que de nombreuses personnes créent des logiciels pour gagner leur vie et je vois mal pourquoi ce serait toujours les grands éditeurs (Corel, Microsoft, etc.) qui devraient être encouragés volontairement ou par défaut.

Évidemment, et je pense que tu seras d'accord avec moi roger64, Writer d'OpenOffice ou de LibreOffice couplé avec l'extension Writer2LaTeX de Henrik Just est une excellente solution, notamment en raison de la richesse des fonctionnalités de Writer et bien sûr parce qu'il est libre et gratuit.

J'ai rapidement essayé Amanuensis, dont l'auteur a modifié la licence d'utilisation: on peut maintenant l'utiliser pour un usage commercial si on le souhaite. Ce logiciel est vraiment intéressant et propose un workflow intelligent et de nombreux exemples, mais j'y suis moins à l'aise qu'avec les deux premiers logiciels signalés plus haut.

Finalement, la prochaine version de Sigil (0.6.0 ) promet d'être stimulante: on verra! Pour l'instant je m'en tiens à la 0.5.3 qui fonctionne mieux chez moi que la bêta de la 0.6.0.

Voilà donc mes petits retours d'expérience en espérant que cela puisse servir à quelqu'un.

Généralités

Roger, puisque tu sembles être l'âme de ce fil, si ce n'est d'ailleurs du forum français, (pas très vigoureux il faut l'avouer), j'ai quelques questions à te poser:

- comment choisis-tu les ouvrages qui seront transformés en epub?

- si j'ai bien lu, tu trouves les sources sur Gallica: quel est alors ton workflow, ou, pour être plus latin, ton modus operandi à ce niveau?

- je vois que tu adores les nouvelles et les romans du XIXe siècle, pour ma part j'aimerais ressusciter certains récits de voyage ou encore des relations qui concernent les diverses épidémies (peste, choléra ou autre) qui ont affligées l'Europe durant le XVIIIe et XIXe siècle. Bref, si tu as des idées, je suis preneur!

Ce fil est très intéressant!

À plus, à tous

Arios

Last edited by Arios; 08-13-2012 at 02:18 AM.
Arios is offline   Reply With Quote
Old 06-22-2012, 10:43 AM   #154
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
@Arios

Bienvenue et merci de tes commentaires. Je suis ravi de trouver un futur collègue avec qui partager tuyaux et expérience.

Je garde un souvenir disons partagé du printemps 2011 et ne souhaite pas renouveler ce type de discussions. Le titre du fil a d'ailleurs été explicitement modifié à la fin 2011. Son objet a aussi évolué au fil du temps: c'est devenu un fil mixte comprenant à la fois des annonces d'ebooks et des infos liées à leur fabrication.

Chacun utilise ce qu'il veut et vend ce qu'il veut. Pour ma part, en tant que linuxien, j''utilise en priorité des logiciels libres, c'est à dire des logiciels dont le code est librement consultable et modifiable. Ils sont aussi pour la plupart multi-plateformes et tout aussi efficaces que d'autres.

Il existe par ailleurs un fil spécifique sur ce forum pour AWP. et un autre pour Amanuensis.

Méthode de travail.

Elle s'est étoffée au fil des mois. Je publie au fur et à mesure ce que j'apprends de nouveau.

Pour l'essentiel cependant, je ne peux mieux faire que de te renvoyer aux deux epubs que j'ai publiés à ce sujet (signature). Au départ limitée à writer2xhtml et OpenOffice, elle déborde maintenant en aval vers Sigil à titre subsidiaire.

En amont, je dispose enfin d'une méthode d'OCR libre qui me permet de remplacer Fine Reader qui était le dernier logiciel Windows que je devais utiliser sur sa plate-forme (virtuelle). Je la commenterai d'ici quelques jours. Le premier livre l'utilisant est presque terminé.

Choix des livres

Je n'ai pas d'autre technique que le fil d'Ariane. Un ou plusieurs mots clés, des recherches d'auteurs, des centres d'intérêt. Gallica pèche plus pas excès que par défaut. J'apprécierais aussi de pouvoir publier des ouvrages plus récents...

A bientôt

Last edited by roger64; 06-22-2012 at 10:53 AM.
roger64 is offline   Reply With Quote
Old 06-22-2012, 02:21 PM   #155
Arios
A curiosus lector!
Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.
 
Arios's Avatar
 
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
Bonjour à tous,

À roger64

Comme je l'ai dit, j'ai lu le fil en entier. Je parlais donc de l'intérêt des infos échangées avec coolmicro, pas de la manière dont elles l'ont été! Il est facile de comprendre que tu ne veuilles pas renouveler l'expérience!

J'ai également saisi les "tendances" du fil: il n'en demeure pas moins relié, n'est-ce pas, à la création des epub? Puisque c'est ton fil, penses-tu qu'il serait préférable de ne parler ici que la création des epub avec Writer d'Open Office et de Libre Office?

J'avais déjà repéré le fil consacré à AWP, mais il est en anglais et lorsque c'est possible, j'aime bien utiliser le français.

En passant je n'ai rien à vendre ici et j'utilise autant que faire se peut les logiciels libres, mais je n'ai pas les compétences pour consulter et modifier le code de ces logiciels, même des plus simples, ils restent donc, d'abord et avant tout pour moi, des solutions économiques et le plus souvent excellentes. Je t'envie sincèrement d'être en mesure d'examiner ces codes et de comprendre comment ils fonctionnent! Ceci étant dit, je comprends tout de même la philosophie qui les fonde.

Bref, j'ai hâte de prendre connaissance de ta nouvelle méthode reliée à la ROC (reconnaissance optique de caractères). Cette reconnaissance pose en effet d'importants problèmes pour les livres anciens, qu'ils soient en papier ou au format pdf.

En ce qui concerne ton fil d'Ariane il donne ma foi de bons résultats!

À +
Arios is offline   Reply With Quote
Advert
Old 06-24-2012, 01:44 AM   #156
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Édition

Histoires crânes de Richard O'Monroy.

Trois des vingt-sept nouvelles n'ont pas de lettrines, simplement parce que la forme du début ne s'y prêtait pas (courts dialogues et guillemets)

OCR Linux sur fichiers images PDF

J'ai testé une solution OCR Linux en remplacement de Fine Reader 9 (Windows) que j'utilisais ces dernières années. Pour réaliser le recueil cité plus haut, j'ai utilisé comme source ce document de 320 pages au format PDF image télechargé sur le site de Gallica (7 mégas).

Après quelques tâtonnements, cette solution, bien que perfectible, est désormais utilisable. Elle est libre, facile à mettre en œuvre et pratique parce qu'elle utilise systématiquement le traitement par lot. Le logiciel OCR utilisé est Cuneiform.

Logiciels nécessaires

pdfsam est dans les paquets. pdfimages fait partie du paquet poppler-utils. Utilisez python 2.6 ou plus. Pour Ubuntu ou Debian:
Code:
sudo apt-get install python-2.6 python-qt4  python-numpy cuneiform pdfsam poppler-utils zenity
Télechargez ensuite: Briss et OCRcorrector et Fusion

Marche à suivre

1. pdfsam (préparation PDF) Facultatif.

En cas de fichier vraiment hénaurme, vous pouvez utiliser pdfsam (plugin split) soit pour diviser le livre soit pour sélectionner les pages normalisées.Vous pouvez aussi parfaitement laisser le livre tel quel et ne pas utiliser pdfsam. Le choix variera selon le contenu de chaque livre et votre méthode de travail. La copie d'écran ci-dessous n'est qu'un exemple et pas un modèle.
http://img15.hostingpics.net/thumbs/mini_182246pdfsam2.png

2. Briss ("nettoyage" PDF)

Ouverture du livre avec Briss : découpage logiciel des zones hors texte. Commencez par vérifier les rectangles, puis quand vous êtes satisfaits: Menu: Action: crop PDF) → cropped.pdf
C'est un point important. Prenez quelques minutes pour apprendre à obtenir les meilleurs résultats sur les pages homogènes (paires, impaires).
Délai: deux minutes environ pour un livre de 300 pages (dix mégas).

3. pdfimages (conversion en images)

Conversion des pages PDF découpées en images pbm avec pdfimages (une ligne de commande - voir man pdfimages)
Code:
pdfimages cropped.pdf fichier
Vous obtenez alors vos images sous cette forme: → fichier-000.pbm, fichier-001.pbm, etc.
Délai: dix secondes pour un livre de 300 pages (dix mégas).

4. OCRcorrector (reconnaissance)

Sélectionner le groupe d'images à reconnaître (utilisez Shift). Reconnaissance des images pbm et conversion en fichiers html avec OCRcorrector (traitement par lot - Menu: OCR/Lancement groupé)
Vous obtenez vos pages html sous cette forme: → fichier-000.html, fichier-001.html, etc.
Le couple Cuneiform/OCRcorrector est très efficace et exceptionnellement rapide pour reconnaître des groupes d'images allant jusqu'au livre complet. Chaque image pbm est convertie en une page html portant le même numéro. Les images contenues dans le texte seront placées dans des dossiers séparés portant l'extension .files.
Délai: trois minutes pour un livre de 300 pages (dix mégas).

Jusqu'ici, tout était parfait. Ça va se gâter: la correction de groupe et la fusion d'OCRcorrector qui devraient être les phases suivantes, ne fonctionnent pas ou mal. Il a donc été nécessaire de mettre au point une solution de contournement.
Le script Fusion (réalisé grâce à l'aide reçue sur les forums Ubuntu et MobileRead) va maintenant prendre le relais.

5. Script Fusion (fusion, première correction)

Spoiler:
Code:
 #! /bin/bash
name=$(zenity --entry --title "Nom du fichier" --text "Nom? (sans numéro)" --entry-text=NAME)
echo "name=$name"

number=$(zenity --entry --title "Numéro du fichier" --text "Numéro à trois chiffres" --entry-text=NUMBER)
echo "number=$number"

sed '1,/<body/!d' "${name}"-"${number}".html > complet.html
sed '/<body/,/<\/body>/!d;/<body/d;s/<\/body>//' "${name}"-*.html >> complet.html
echo "</body></html>" >> complet.html

echo "Fusionné"
zenity --info --text "Fusionné"

sed -f fix.sed -i complet.html

echo "Correction fix-sed"
zenity --info --text "Correction fix-sed"


Les pages html reconnues par OCRcorrector sont nommées de la façon suivante : xxxxx-000.html, xxxxx-001.html, etc. Préparez un répertoire de travail: mettez le script Fusion et la liste fix.seb avec vos pages html à fusionner et corriger.

Lancez le script Fusion: vous allez automatiquement et en quelques secondes:
- concaténer (fusionner) les pages html reconnues en produisant un fichier unique nommé complet.html.
Vous pouvez le faire travailler sur n'importe quelle suite de fichiers, à condition de désigner le premier fichier de votre série. Exemple: pour fusionner une série quelconque commençant par le fichier nommé bijou-050.html, il suffit d'entrer le NOM bijou, et le NOMBRE 050.

- chercher/remplacer des erreurs récurrentes causées par l'OCR dans ce fichier complet.html.
Le script Fusion utilise une liste de corrections établie dans le fichier joint fix.sed. Ces corrections sont modifiables sous réserve de respecter la syntaxe de sed. Si vous complétez cet embryon de liste avec vos propres corrections, merci de bien vouloir faire un retour.

Si cette commande ne produit rien, c'est que vous aurez commis une erreur dans le libellé de la liste. Pour la détecter, lancez une vérification avec un terminal et lisez les commentaires. La commande à utiliser dans ce cas là est:
sed -f fix.sed -i complet.html

6. OCRcorrector (deuxième correction)

Vous pouvez maintenant lancer la "vraie" correction avec OCRcorrector sur le fichier complet.html.
Menu: Correction: Lancer (voir copie d'écran)
Délai: moins de cinq minutes pour trente pages (varie selon processeur). Sauvegardez.
Un exemple d'OCRcorrector au travail:
http://img15.hostingpics.net/thumbs/mini_788523Capturedeux.png

7. Relecture (.../..) Comme d'habitude la partie la plus longue.

CONCLUSION

Cette solution d'OCR est dès aujourd'hui utilisable et donne de bons résultats. Ce n'est pas une Rolls mais c'est une bonne routière.

Nota: Vous pouvez bien sûr lancer OCRcorrector directement sur un lot d'images (ex Scantailor) mais je n'ai pas fait l'essai.
Nota2: Pour regarder ailleurs, ce qui se fait dans le monde du libre...
Attention! Le nom du dossier de travail ne doit comprendre que des caractères alphabétiques non accentués!!! Même pas des apostrophes!! Sinon,cela se traduira par un refus silencieux de charger vos images (ou une erreur dans le terminal qui risque de vous désespérer - question de chaîne utf-8, etc.).

Vous trouverez ici un essai sur vingt pages allant du PDF découpé, aux images puis à aux simples pages html et enfin au fichier complet.html. Aucune retouche additionnelle n'a été faite au traitement "usine".
http://dl.dropbox.com/u/31141350/demo%20OCR.zip

Last edited by roger64; 06-28-2012 at 05:56 AM. Reason: spoiler
roger64 is offline   Reply With Quote
Old 06-24-2012, 05:34 AM   #157
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
@Arios
En ce qui concerne l'utilisation de ce fil, il me semble qu'il doit contribuer avant tout à faciliter la fabrication d'EPUB.

Il y a aujourd'hui beaucoup de solutions qui sont en grande partie techniquement comparables. Plutôt que de les passer en revue, il semble plus judicieux de n'évoquer que leurs points forts (si on les croit uniques) ou leurs points faibles.

Ainsi, tout ce qui permet d'illustrer concrètement soit une nouveauté soit un problème rencontré est le bienvenu et cela sous la forme la plus adaptée (code, epub, texte, etc.).
roger64 is offline   Reply With Quote
Old 06-26-2012, 11:43 AM   #158
Arios
A curiosus lector!
Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.
 
Arios's Avatar
 
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
À roger64

Je suis heureux de constater que les epub sont effectivement le centre d'intérêt du fil et tu as parfaitement raison en ce qui concerne les solutions techniques. Ce ne sont que des moyens pour parvenir à une fin plus globale et plus noble: diffuser la culture écrite et notamment la culture d'expression française, du moins en ce qui nous concerne j'imagine.

Comme tu l'as sans doute deviné, mon message "récapitulatif" ne visait qu'à signaler où je loge. Par ailleurs je ne souhaite pas squatter ton fil, et à l'évidence nous ne sommes pas au même niveau: cela ne fait que quelques mois que je m'intéresse aux epub et à la petite "révolution" qu'ils sont fort probablement en train d'introduire dans le milieu de l'édition traditionnelle. J'en suis donc encore aux généralités et à établir des workflow, mais surtout à essayer de comprendre ce qu'ils vont changer dans les modes d'appropriation des contenus textuels.

Autrement dit, les techniques m'intéressent assez peu en tant que telles, mais ce qu'elles induisent, ce qu'elles peuvent avoir comme effet "incitatif à la lecture" m'interpelle beaucoup.

Finalement comme j'utilise essentiellement Windows (Ubuntu notamment est totalement allergique à mon pc ), je peux difficilement commenter ta méthode de ROC (OCR) bien qu'elle est sans doute adaptable en ce qui concerne les étapes décisives et les précautions à prendre (nettoyage du texte, etc.).

Arios
Arios is offline   Reply With Quote
Old 06-27-2012, 11:10 AM   #159
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Édition

Tout en rose!, un recueil de nouvelles de Richard O'Monroy (1902).

Solution Linux - Quelques remarques sur Cuneiform/OCRcorrector

Ceci est le deuxième livre réalisé avec cette solution Linux. Je confirme qu'elle est utilisable et correcte, ce qui est en soi une bonne nouvelle. J'ai donc décidé de continuer à l'utiliser.

Les limitations d'emploi.

Cuneiform, dans de bonnes conditions de température et de pression affiche 96% de taux de reconnaissance. Entendons-nous, il s'agit le plus souvent de la police corps de texte, qui représente, il est vrai, l'immense majorité des signes d'un roman lambda. Mais dès qu'il y a des traînées grisâtres, du flou, des italiques, des polices un peu exotiques, cela chute dramatiquement. En faisant une comparaison qui vaut ce qu'elle vaut, on pourrait dire qu'avec cette voiture, on peut aller très loin (un livre), très vite (en une seule étape) mais qu'il vaut mieux prendre l'autoroute. On ne peut donc pas tout traiter. Préférez les romans - de gare ou pas - aux traités spécialisés et donnez-lui des scans pas trop dégradés, sinon...

Parmi les particularités que j'ai remarquées sans les expliquer, Cuneiform se montre plus tolérant que FineReader 9 pour traiter les zones de texte obliques (pas la tour de Pise quand même). Il respecte bien les paragraphes mais il a tendance à saupoudrer le texte de sauts de ligne dont il est cependant facile de se débarrasser.

Le pré-traitement

On peut améliorer un peu le résultat: le pré-traitement des PDF par Briss, leur conversion en image par pdfimages sont vraiment très efficaces. Je me souviens d'erreurs grossières (et rares) de cadrage automatique avec FineReader 9 qui m'obligeaient pour certains ouvrages à refaire ce cadrage en manuel. Ce type de phénomène appartient au passé si vous utilisez Briss.

Ensuite il y a les corrections, la majeure et la mineure. La majeure, celle d'OCRcorrector permettrait de corriger (à ce qu'il indique) environ un quart, voire un tiers, des fautes repérées. Cette proportion est à prendre avec précaution mais enfin, on peut supposer qu'elle élève un peu le pourcentage de 96%. Ne connaissant pas Python, je ne peux en dire davantage.

La mineure utilise sed: elle se contente de corriger des fautes récurrentes de transposition mais elle est efficace. Elle se révèle bien adaptée à Cuneiform parce que celui-ci transcrit le plus souvent littéralement, caractère par caractère, ce qui fait qu'il est assez facile de le corriger. (ex: c8té →côté) Certes, il y a des fois où il fait preuve d'une imagination débordante, par exemple pour transcrire le à isolé (six ou sept variantes possibles...) L'autre avantage est que ce type de correction reste sous le contrôle de l'utilisateur lambda qui peut donc le perfectionner au fil du temps.

Les pistes d'amélioration

Il y aurait bien la solution d'adapter un second moteur d'OCR (Tesseract?). L'auteur d'OCRcorrector - qui ne donne plus signe de vie depuis deux mois - avait indiqué qu'il l'avait essayé et avait été déçu. Néanmoins, s'il était possible de choisir de le brancher à titre d'alternative, ce serait sans doute un plus. Il faudrait pour cela connaître Python...

Par ailleurs, je vais ausi continuer au fil du temps à enrichir le fichier fix.sed.

Last edited by roger64; 06-28-2012 at 05:56 AM.
roger64 is offline   Reply With Quote
Old 06-30-2012, 12:00 PM   #160
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour,

Édition

Le chic et le chèque, un recueil de 30 nouvelles de Richard O'Monroy (1893).

Qualité du scan de Gallica

C'est le quinzième recueil de Richard O'Monroy que je transcris à partir d'un scan de Gallica. Le scan de ce numéro 15 est d'une qualité irrégulière, allant de la page - presque - nette à la page floue, voire hachée... Le tiers environ de l'ouvrage est difficilement exploitable pour ces raisons. Pour reprendre la comparaison du message précédent, avec ce livre, on a quitté l'autoroute du numéro 14 pour emprunter une route de montagne sinueuse et mal entretenue.

J'ai été contraint de renoncer à utiliser l'OCR Linux à compter la page 100 environ où je me suis trouvé face à un maquis inintelligible. Fine Reader 9, s'y retrouve après un recadrage manuel et en dépit de quelques difficultés.

Il semble anormal que la lisibilité d'un même livre soit si inconstante, page après page. Contrôle qualité, es-tu là?

Tags parasites

J'ai eu à supprimer sélectivement quelques tags parasites <br /> dans le style corps de texte (Textbody). La regex suivante (Sigil) supprime le premier de ces tags pour chaque paragraphe corps de texte. Le cas échéant, vous pouvez alors avoir à l'exécuter plusieurs fois.
Code:
<p class="Textbody">(?!</p>).*\K<br[^>]*?/>
roger64 is offline   Reply With Quote
Old 07-06-2012, 04:55 AM   #161
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Édition

Services de nuit, un recueil de nouvelles de Richard O'Monroy (1892).
roger64 is offline   Reply With Quote
Old 07-06-2012, 10:18 PM   #162
Arios
A curiosus lector!
Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.Arios ought to be getting tired of karma fortunes by now.
 
Arios's Avatar
 
Posts: 463
Karma: 2015140
Join Date: Jun 2012
Device: Sony PRS-T1, Kobo Touch
Bonjour/bonsoir à tous et à toutes,

roger64, merci de toutes ces infos techniques et de tous ces epub. Malheureusement je n'utilise pas GLinux et les epub que tu nous offres ne sont pas, toujours, ceux que je lis prioritairement.

Je pense que le dialogue n'est pas toujours nécessaire: c'est vrai.

Lorsque l'occasion se présentera, je créerai un nouveau fil, plus général et moins centré sur les aspects strictement techniques.

Arios

Last edited by Arios; 08-13-2012 at 02:23 AM.
Arios is offline   Reply With Quote
Old 07-11-2012, 07:06 AM   #163
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Édition

À grandes guides, un recueil de nouvelles de Richard O'Monroy (1885).

Logiciel

Ce fil a effectivement tendance à se spécialiser au fur et à mesure de mes "découvertes". Les conseils pour débutants ont été pour l'essentiel développés dans les - deux - EPUB que j'ai publiés.

Paragraphe pour débutant.

J'ai l'habitude de lire à l'écran, souris en main, de façon "active" à partir d'un modèle contenant mes styles. Voici comment se passe la correction et la mise en forme (copie d'écran plus bas).

Il y a ensuite la création et mise en place de la couverture et des images, puis une deuxième relecture (portant sur la vérification de l'orthographe, de la ponctuation et des styles), un bref passage sur Sigil et enfin un contrôle sur ADE et sur ma fidèle PRS-505.

Richard O'Monroy?

Richard O'Monroy est un auteur mineur, oublié de tous sauf de Gallica. Pendant plus de trente ans, sur une cinquantaine de recueils, il a traité les mêmes thèmes. Ses personnages aux modes surannées, aux coutumes obsolètes vivent leurs caprices au présent. Lisez-le avec un grain de sel. L'homme aime à se distraire...

Un fil Linux?

Quel que soit votre OS (Windows, Mac, Linux...), les EPUB publiés sur ce fil sont produits par conversion directe d'un fichier odt avec writer2xhtml.

J'y ai rajouté ce printemps une petite partie faite avec Sigil (multi-plateformes) qui utilise des expressions régulières. L'EPUB ci-dessus en utilise trois pour:
- insérer des lettrines
- insérer une images répétitive
- adapter le nom d'une police incorporée
Attached Thumbnails
Click image for larger version

Name:	Corrrection2.png
Views:	522
Size:	368.9 KB
ID:	88994  

Last edited by roger64; 07-11-2012 at 07:21 AM.
roger64 is offline   Reply With Quote
Old 07-14-2012, 11:35 AM   #164
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Édition

Les petites Manchaballe, un recueil de nouvelles de Richard O'Monroy (1893).

Logiciel

Ajustements sur la feuille de style (info débutant)

Sigil peut vous servir, non seulement pour exécuter des regex rajoutant des fonctionalités subsidiaires, mais aussi pour corriger quelques défauts éventuels, mis en évidence à l'issue d'un contrôle avec ADE, notamment en jouant sur les marges. Voici quelques exemples (non exhaustifs...):

- La valeur de "margin-bottom" permet de contrôler l'étagement des éléments, pour des objets (images non pleine page) comme pour des styles.
- En jouant sur le pourcentage de la valeur de la "margin-left" et "margin-right", vous pouvez modifier la dimension d'une barre horizontale ou le centrage d'un tableau.
- Un "text-indent:0" suffira à remettre dans le rang un style un peu excentré.

Last edited by roger64; 07-14-2012 at 12:08 PM.
roger64 is offline   Reply With Quote
Old 07-16-2012, 09:55 AM   #165
roger64
Wizard
roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.roger64 ought to be getting tired of karma fortunes by now.
 
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
Bonjour

Édition

Les propos de madame Manchaballe, un recueil de nouvelles de Richard O'Monroy (1896)

Photographies

Quelques photos 1900 qui illustrent à merveille la mode féminine de l'époque, celle que n'a de cesse de décrire O'Monroy dans ses nouvelles. Une autre époque vraiment...

Je ne sais pas si le lien restera actif longtemps...
http://www.dailymail.co.uk/femail/ar...ntury-ago.html
roger64 is offline   Reply With Quote
Reply

Tags
ebook

Thread Tools Search this Thread
Search this Thread:

Advanced Search

Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Créer des epub à partir d'une syntaxe wiki (chaîne d'édition vers PDF (LaTeX), xHTML farvardin Software 1 04-03-2011 12:49 PM
Problème avec conversion de *.pdf avec calibre panzer Assistance 2 08-24-2010 03:49 AM
Comment créer un tableau centré dans un Ebook avec sigil ? agronomia Software 7 05-06-2010 06:26 AM
Créer des documents ePub Thomas_ Software 3 04-17-2010 07:36 AM
Comment créer une recette avec calibre ? KLAO Software 1 02-04-2010 09:17 AM


All times are GMT -4. The time now is 08:59 PM.


MobileRead.com is a privately owned, operated and funded community.