03-26-2010, 09:31 PM | #1 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
EPUB et points d'interrogations
Bonjour.
Voici un fichier en langue anglaise appelé Extrait.odt copié d'un livre d'Italo Calvino (comme son nom l'indique c'est juste un extrait avec deux paragraphes). Exporté en xhtml par l'extension d'OpenOffice appelée writer2xhtml L'EPUB a été créé avec Sigil à partir de ce fichier html. Les trois fichiers en question se trouvent dans le zip joint. Lorsque je lis l'EPUB sur mon PRS-505, je vois apparaître des doubles points d'interrogation à côté des marques de ponctuation alors que tout semble parfait avec OpenOffice puis Sigil. Je sais qu'il y a un problème actuellement avec la visualisation des marques de césure ("soft hyphens") mais ce n'est pas ce dont il s'agit ici. Ce n'est pas non plus lié aux signes diacritiques de langues plus ou moins exotiques puisque le texte est en anglais. C'est autre chose. C'est quoi ? Question Qu'est-ce qui provoque ce défaut ? Comment l'éviter ? Last edited by roger64; 03-26-2010 at 10:07 PM. |
03-26-2010, 10:19 PM | #2 |
zeldinha zippy zeldissima
Posts: 27,827
Karma: 921169
Join Date: Dec 2007
Location: Paris, France
Device: eb1150 & is that a nook in her pocket, or she just happy to see you?
|
salut roger,
eh bien, c'est un bel énigme que tu nous proposes là ! j'ai regardé le code source de tes documents dans sigil : rien à signaler, apparemment. sauf que j'ai remarqué que si j'insère le curseur dans le texte et le déplace avec les flèches, il faut 3 touches pour sauter un seul espace. hm. j'ai donc ouvert ton fichier xhtml dans dreamweaver : rien. dans le blocnotes de windows : toujours rien ! *mais* quand j'ai regardé en ouvrant le fichier html avec wordpad (un éditeur de texte un peu plus sophistiqué que blocnotes mais moins que word ou open office) voici ce que j'ai trouvé : Code:
<p class="Textbody" style="margin-left:0.0cm;margin-right:0.0cm;text-indent:0.0cm">One day,â€* ‬in the illustrious nation of Panduria,â€* ‬a suspicion crept into the minds of top officials:â€* ‬that books contained opinions hostile to military prestige.â€* ‬In fact trials and enquiries had revealed that the tendency,â€* ‬now so widespread,â€* ‬of thinking of generals as people actually capable of making mistakes and causing catastrophes,â€* ‬and of wars as things that did not always amount to splendid cavalry charges towards a glorious destiny,â€* ‬was shared by a large number of books,â€* ‬ancient and modern,â€* ‬foreign and Pandurese.</p> Code:
<P CLASS="western" STYLE="text-indent: 0cm">One day,* in the illustrious nation of Panduria,* a suspicion crept into the minds of top officials:* that books contained opinions hostile to military prestige.* In fact trials and enquiries had revealed that the tendency,* now so widespread,* of thinking of generals as people actually capable of making mistakes and causing catastrophes,* and of wars as things that did not always amount to splendid cavalry charges towards a glorious destiny,* was shared by a large number of books,* ancient and modern,* foreign and Pandurese.</P> Code:
<body class="sgc-2 sgc-3" dir="ltr"> http://www.virusbtn.com/resources/sp.../aboutface.xml je ne sais pas du tout d'où sort ce code superflu et problématique. vérifie éventuellement tes paramètres. mais, la bonne nouvelle, c'est que même si dans sigil on ne voit pas ces "caractères" on peut les sélectionner (placer le curseur dans le texte, avancer jusqu'à la fin du mot, puis maintenir la touche maj enfoncée et utilise la flèche droite pour "déplacer" le curseur de l'autre côté du caractère invisible en le sélectionnant), on peut les copier et les coller dans la boîte de recherche (tu les verras toujours pas, mais ils y seront) ET on peut les remplacer avec du "rien" moins consistent en faisant "remplacer tout" avec un champ de remplacement vide. je l'ai fait 2 fois (une fois pour le caractère avant l'espace, une fois pour le caractère après l'espace) et sigil m'a annoncé 17 et 16 remplacements. le fichier que je te joins est le résultat et il s'affiche correctement dans digital éditions. tu peux aussi essayer d'ouvrir ton fichier xhtml avec un éditeur de texte (je ne sais pas lequel tu as, tu es sous linux non ?) et voir si les entités apparaissent, auquel cas il est encore plus facile de les virer (rechercher / remplacer tout). voilà donc ! j'espère que ça t'aide. bon courage ! ça devrait pas être trop compliqué à régler désormais. |
Advert | |
|
03-26-2010, 10:20 PM | #3 |
zeldinha zippy zeldissima
Posts: 27,827
Karma: 921169
Join Date: Dec 2007
Location: Paris, France
Device: eb1150 & is that a nook in her pocket, or she just happy to see you?
|
par ailleurs, il y a pas mal de code superflu là-dedans, tu pourras le virer sans problème.
|
03-26-2010, 11:23 PM | #4 |
zeldinha zippy zeldissima
Posts: 27,827
Karma: 921169
Join Date: Dec 2007
Location: Paris, France
Device: eb1150 & is that a nook in her pocket, or she just happy to see you?
|
rhâ trop chelou ! je viens de voir que mon deuxième extrait a remplacé les entités html par des astérisques, bien que je l'aie mis dans des balises "code". décidément hein ? alors je te les mets en toutes lettres, à chaque espace tu avais en fait ceci :
& # 8237 ;(espace normal)& # 8236 ; mais boudi, ces entités-là ne veulent *vraiment* pas que tu les voies... |
03-27-2010, 03:33 AM | #5 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
.../...Parmi les plus furtives, nous pouvons citer la "Zelda aurea" . Cette entité qui tire son nom d'une brillante chercheuse du MRL (Mobile Read Laboratory) qui la mit en évidence pour la première fois au printemps 2010. .../...
Histoire des entités. Pour un monde sans balises. Ch. 3 p 28. Eyrolles. 2045 Ben, dis donc Zelda!! Bravo pour ton enquête express. Par ailleurs, je vais regarder attentivement ce que tu as nettoyé. Merci aussi pour l'excellente leçon et démonstration de html et pour l'astuce du curseur baladeur . C'est une vraie technique d'investigation clinique. Quant à la permutation du vide avec rien, c'est tout simplement de la prestidigitation. Subitement, je me sens moins démuni face à l'adversité. Etant sous Linux, j'ai regardé aussi avec gedit qui est pourtant généralement considéré comme un éditeur de texte plutôt avancé, et cet animalcule bizarre n'apparait toujours pas. Enfin maintenant, je sais comment le détecter et donc le détruire. Last edited by roger64; 03-27-2010 at 06:09 AM. Reason: essai |
Advert | |
|
03-27-2010, 09:48 AM | #6 | |||
zeldinha zippy zeldissima
Posts: 27,827
Karma: 921169
Join Date: Dec 2007
Location: Paris, France
Device: eb1150 & is that a nook in her pocket, or she just happy to see you?
|
Quote:
Quote:
Quote:
|
|||
03-27-2010, 10:12 AM | #7 |
Addict
Posts: 259
Karma: 434
Join Date: Feb 2010
Device: none
|
La question est surtout de savoir pourquoi tu as converti un .odt en xhtml pour ensuite le mettre dans Sigil... C'est beaucoup d'étape qui ne peuvent que générer des trucs bizarres, non ?
Ce que j'aurais fait : copier le texte du .odt dans un éditeur de texte le plus simple possible. Puis copier de nouveau le texte depuis l'éditeur et le mettre dans un nouveau document Sigil. Puis terminer les mises en pages dans Sigil lui-même. Pourquoi pas coller depuis Writer vers Sigil directement ? Tout simplement parce que la copie depuis un gros traitement de texte (Writer ou Word) emmène toujours avec elle des tas de balises bizarres et inutile derrière elle. Alors qui si on passe par un simple bloc-note intermédiaire, il n'y a rien, c'est quasiment du texte brut qu'on exporte. Enfin, le code HTML ou XHTML généré par Writer est assez verbeux, limite horrible. Quitte a généré d'abord du code html, autant copier-coller depuis un bloc-note (gedit) vers Kompozer. |
03-27-2010, 10:19 AM | #8 | |
zeldinha zippy zeldissima
Posts: 27,827
Karma: 921169
Join Date: Dec 2007
Location: Paris, France
Device: eb1150 & is that a nook in her pocket, or she just happy to see you?
|
Quote:
|
|
03-27-2010, 11:38 AM | #9 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Les goûts et les couleurs...
J'aime travailler avec OpenOffice qui est très puissant et souple. D'ordinaire, j'exporte en pdf avec un bouton et basta. En m'essayant à l'EPUB, je suis d'abord passé par calibre mais je me suis aperçu qu'il fallait faire ensuite souvent de -grosses- retouches avec Sigil (centrage des images, changements de polices.... J'ai trouvé que ce n'était pas pratique. Le passage par writer2xhtml est transparent (pas de paramètres à donner). Ensuite Sigil n'a normalement pas grand chose à faire non plus sinon fractionner les gros fichiers et enregistrer les meta-données. Je trouve que c'est beaucoup mieux. S'il y a des défauts, c'est qu'ils sont dans le fichier initial. Et donc la seule condition à respecter est que le fichier OpenOffice initial soit de bonne qualité, c'est à dire créé uniquement avec des styles "normaux" et pas des styles "automatiques". J'ai commenté cette affaire ici. https://www.mobileread.com/forums/sho...t=75276&page=2 au post 20 et là https://www.mobileread.com/forums/sho...77&postcount=7 encore que je doive encore perfectionner l'exemple. Une fois que l'on a pris le pli, le gain de temps est très important. S'il y a pas mal d'informations pour chaque style utilisé, c'est que JE les ai définies ainsi. Là, il s'agissait d'un fichier "extérieur" et d'un phénomène conjoncturel avec une entité non identifiée mais enfin cela nous a valu une enquête passionnante. Pour finir, je me suis aperçu que l'entité était décelable avec .....Notepad qui fonctionne sous Linux avec Wine. (voir photo) L'entité se laisse aisément rechercher et remplacer. Mais c'est bien la première fois que je dois recourir à lui... Last edited by roger64; 03-27-2010 at 12:35 PM. |
03-29-2010, 05:42 AM | #10 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Pour continuer ce que je disais à propos d'OpenOffice, j'avais souligné la nécessité de prendre certaines précautions pour formater le fichier odt, en particulier de recourir systématiquement à l'emploi de la fenêtre de styles, voire même de privilégier l'emploi de la fenêtre de styles html..
Vous pouvez ensuite chercher à vérifier la qualité de votre fichier en amont de Sigil. Pour cela, il y a quelques possibilités cumulables (ici c'est permis): 1- le fichier odt peut être assaini avec une extension d'OpenOffice appelée l'éradicateur de surcharge que je viens de découvrir et d'essayer. http://user.services.openoffice.org/...p?f=18&t=13225 Bien que le titre à lui seul soit assez pondéreux, cette extension peut débarrasser votre texte de formatages inutiles, voire émonder vos styles en vous demandant successivement l'autorisation. Elle est ainsi beaucoup plus configurable que l'option "formatage par défaut", qui est un peu tout ou rien. Voici un exemple de l'éradicateur en action (le petit carré à droite et la fenêtre de vérification), bien que je ne sois pas sûr de ce que cachent les "postures complexes" ou "asiatiques". A vrai dire, dans ce cas-ci, la vérification n'a porté que sur des points tout à fait mineurs, mais , qui sait ? 2- le fichier xhtml peut être vérifié avec HTML Tidy installé sur Firefox (ou autre). Un simple coup d'œil vous confirme que vous êtes au vert, même si je sais que HTML Tidy n'est pas la Bible et les prophètes. Le but de ces manœuvres d'approche étant de fournir à Sigil un document xhtml certes pas parfait mais au moins qui ne le fasse pas tousser. On peut ainsi, sans toucher une balise et simplement en procédant prudemment mettre en forme un gros document contenant des images -centrées ou pas-, des notes de bas de page, une table des matières, etc...Disons que de cette façon, vous êtes déjà en mesure de publier une partie significative des EPUB de Mobile Read. Les effets complexes (image habillée par du texte, lettrine ou autres qui relèvent de ce que l'on appele communément le domaine Zelda) nécessitent bien sûr encore des intervention de chirurgie esthétique sur le code. Vous pouvez vous concentrer dessus, au moins, vous n'avez pas perdu de temps avant. On ne peut pas tout avoir. Last edited by roger64; 03-29-2010 at 06:13 AM. |
03-29-2010, 07:51 AM | #11 |
zeldinha zippy zeldissima
Posts: 27,827
Karma: 921169
Join Date: Dec 2007
Location: Paris, France
Device: eb1150 & is that a nook in her pocket, or she just happy to see you?
|
merci beacoup pour ces informations, roger, c'est génial de savoir qu'open office on peut obtenir un résultat correct en s'y prenant bien.
|
03-31-2010, 06:39 AM | #12 |
Addict
Posts: 259
Karma: 434
Join Date: Feb 2010
Device: none
|
Bonjour,
Je viens de tomber sur un fichier .rtf, qui me donne, dans Writer, tout plein de petits carrés gris partout, au milieu des mots, un peu bizarres, avec des tirets en dessous. Quand je fais un copier-coller du texte vers Gedit ou Kompozer, ces carrés disparaissent, mais quand je re-copie-colle dans l’autre sens, ils reviennent ! un truc de fou ! J’ouvre le fichier avec Wine/Notepad, et là je vois en effet plein de tirets partout… Même quand je l’enregistre depuis Gedit et Kompozer, les animalcules sont toujours là ! Alors je me dis qu’il doit y avoir qqchose au niveau du codage du fichier lui-même, et je l’attaque donc avec Ghex, un éditeur hexadécimal, pour regarder octet par octet ce qui va pas. Et en effet, je vois des octets AD partout partout, entre les octets normaux des lettres des mots… Un coup de Chercher/Remplacer plus tard, et mon fichier est de nouveau tout propre ! Vraiment bizarre… En fait, on ne sait pas trop d’où viennent certains fichiers, le nombre d’OS et de traitements de texte, compression/décompression à travers lesquels ils sont passés au cours des années et j’imagine qu’il doit y avoir des trucs bizarres dedans, au fil du temps. En tout cas voilà : en cas de trucs bizarres, pensez à Ghex ! |
03-31-2010, 06:52 AM | #13 |
Addict
Posts: 259
Karma: 434
Join Date: Feb 2010
Device: none
|
Salut Roger64…
J’ai une question, et je dis peut-être une bêtise : pourquoi ne pas fournir à Sigil du texte brut ? C’est pas plus simple ? Ensuite on rajoute les saut de pages et les Titre1 dans Sigil et voilà, non ? Je me sers de Writer pour faire des rechercher/remplacer un peu complexe, ensuite je sélectionne tout, je colle dans Gedit pour être sûr d’avoir du texte brut et voilà, ensuite, coller vers Sigil… |
03-31-2010, 08:05 AM | #14 |
Wizard
Posts: 2,608
Karma: 3000161
Join Date: Jan 2009
Device: Kindle PW3 (wifi)
|
Bonjour
Il n'y a pas à mon avis de "meilleure" solution mais des solutions adaptées aux goûts et aux objectifs de chacun. Dans mon cas, mon hobby de ces derniers mois a été d'éditer des ouvrages le plus souvent à caractère historique sur MobileRead. J'en ai édité une quinzaine au format PDF et je viens de passer -difficilement- à l'EPUB pour les quatre derniers. L'édition d'un ouvrage de ce type implique: - en moyenne de vingt à quarante heures de travail par volume (comparaison page à page et correction pour l'essentiel) - le travail sur une source volumineuse (texte scanné au format html souvent, rarement au format texte) - beaucoup de notes de bas de page, d'index à produire - croquis et cartes fréquents Je travaille avec la fenêtre de style et le navigateur (titres, repères de texte, hyperliens) et un modèle spécifique pour les ebooks. C'est pourquoi je préfère utiliser un traitement de texte puissant et souple pour y faire l'essentiel de mon travail, notamment avec les styles. La conversion en EPUB ne représente qu'une partie infime du temps de travail global (et la plus nouvelle..). Sachant que le format ODT est un standard iso dérivé du xml, la conversion vers le xhtml est relativement propre autant que je puisse en juger, dans la mesure où l'on accepte d'utiliser les styles avec le plus de rigueur possible pour éviter les surcharges ou les styles "parasites" dits automatiques. Si le fichier d'entrée est trop "pollué", il existe une option "formatage par défaut" qui décrasse tout sauf les styles. Maintenant pour d'autres tâches, je conçois bien qu'il puisse y avoir d'autres techniques. Un bouquin de 800 pages ne se traite pas comme un page web ou comme une nouvelle ou un article. |
03-31-2010, 08:55 AM | #15 |
Addict
Posts: 259
Karma: 434
Join Date: Feb 2010
Device: none
|
En effet, j’ai l’impression que tu travailles sur des ouvrages assez complexes. Le cas du copier-coller en texte brut dont je parle, c’est parce que je ne convertis que des romans (texte au kilomètre, deux ou trois styles pas plus, parfois des notes).
|
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
PRS-650 first look, lots of thoughs, some prs650 vs kindle 3 points | willyu34 | Sony Reader | 17 | 09-22-2010 08:08 PM |
Saving Bookmarks and read points | TomeRaider | PocketBook | 1 | 06-19-2010 03:24 PM |
Get Free Points Toward eBook Purchases! | schroedercl2 | Deals and Resources (No Self-Promotion or Affiliate Links) | 0 | 01-19-2010 01:21 PM |
10,000 Bonus Rewards Points in March | Taylor514ce | Sony Reader | 0 | 07-08-2008 11:43 AM |