View Single Post
Old 12-30-2008, 04:43 AM   #6
Komenor
Enthusiast
Komenor doesn't litterKomenor doesn't litter
 
Komenor's Avatar
 
Posts: 29
Karma: 100
Join Date: Dec 2008
Location: France
Device: Sony PRS-505
Bon, allez, c'est d'accord, je partage avec vous le fruit de mes "recherches" :

Comme je l'ai dit plus haut, une des motivations qui m'ont fait acheter une liseuse, c'était de pouvoir disposer du programme TV autrement que sous forme papier. J'avais écrit à TéléZ en leur demandant s’ils pensaient diffuser une version numérique de leur magazine. Ce à quoi ils ont répondu, laconiquement, que ça leur était envisageable...

Ensuite, j'ai trouvé, sur votre forum, le lien vers BookGlutton.com qui permettait de convertir un paquet de fichiers HTML en un seul document ePub. À ce moment-là, je me suis dit "ça y est, j'ai trouvé la méthode". J'ai donc cherché comment récupérer un fichier contenant le programme des chaînes de la TNT (tv_grabber), puis j'ai construit des pages HTML en extrayant les informations nécessaires et en les mettant en forme. Ensuite, j'ai compilé ces fichiers avec BookGlutton.

Hélas, je n'ai pas réussi à produire un document formaté comme je le voulais, notamment pour ce qui est de l'ordre des pages et de la gestion de l'index. Seulement, tous ces essais m'ont fait découvrir un autre programme : "tidy".

Tidy permet de valider du code HTML et de produire éventuellement des pages corrigées (balises non fermées, caractères interdits remplacés...). Les pages ainsi contrôlées sont certifiées W3C (je crois).

Donc, à ce point de mon histoire, je suis un peu coincé par BookGlutton qui ne produit pas tout à fait le document attendu. Par contre, sur leur site, il y a aussi une référence aux documents qui décrivent l'ePub : EPUB spécifications. Je pensais que la meilleure façon d'obtenir le résultat le plus proche de mes objectifs serait donc d'écrire moi-même un programme de conversion de mes pages en ePub.

Hélas, je ne sais pas si, comme moi, vous avez déjà essayé de vous attaquer à un document officiel décrivant les spécifications d'un format de donnée. Mais c'est tout simplement insipide, long, pénible et plein de trucs inutiles, c'est pire qu'un roman d'un auteur dont je ne citerais pas le nom pour ne blesser personne (en fait, je n'ai pas de noms en tête ). Bref, j'avais l'impression de faire fausse route. J'ai donc encore cherché...

Puis je suis tombé sur un site qui a éclairé mon horizon : Pinnacle Technology. Là, sur une seule page est décrit la structure d'un fichier ePub.
Quand on lit ça, on comprend pourquoi ePub va devenir le format incontournable des liseuses.

En clair : un fichier ePub est, en fait, un fichier zip dont l'extension .zip est remplacée par .epub (essayer sur un fichier libre, vous verrez que vous pouvez le décompresser s’il n'est pas protégé par un mot de passe). Dans cette archive, il y a des répertoires est des fichiers textes qui décrivent le document. Les pages du document lui-même apparaissent sous forme de fichiers XHTML que le programme "tidy" sait justement convertir depuis du HTML. En fait, XHTML et HTML sont très proches.

L'étape suivante de l'aventure consistait donc à construire et organiser les fichiers de mon document pour obtenir exactement ce que je voulais. Le résultat, vous l'avez en pièce jointe dans le premier message de ce post. D'ailleurs, pour les suspicieux que je peux comprendre, vous pouvez décompresser mon fichier ePub-001-20081228-20090103.epub (comme je l'ai expliqué juste avant) et voir que là-dedans il n'y a pas de virus ou de code suspect.

Pour résumer, j'utilise donc :

- tv_grabber_fr pour produire un fichier XML contenant les programmes de TV extraits d'internet
- un programme Tcl pour extraire ces données et les mettre en forme (HTML)
- tidy pour contrôler et convertir ces pages en XHTML
- un programme Tcl pour construire les fichiers qui vont être placés dans l'archive ePub
- un programme de compactage zip pour créer le fichier final que je renomme en .epub

Voilà, vous savez tout !


Enfin, pour répondre à zelda_pinwheel : je n'utilise donc pas un outil en particulier pour produire le fichier ePub puisque c'est un outil que j'ai écrit moi-même. Donc, non, tel qu'il est, il ne peut pas être utilisé pour autre chose; mais oui, il est tout à fait imaginable de l'utiliser comme base pour obtenir un programme cross-platformes pour produire des ebooks. Cependant, je croyais que "Calibre" faisait déjà ça ? Mais il est vrai que je ne l'ai pas essayé, car je n'ai pas pu l'installer sur ma machine. Je suis sous Mandriva Linux et ce qu'ils proposent est conçu exclusivement pour Fedora. Bien sûr, ils donnent les sources ou les binaires d'installation, mais quand j'ai vu le nombre de dépendances requises, j'ai renoncé. Depuis longtemps, j'ai décidé que lorsqu'un programme n'était pas nativement disponible pour ma plateforme (en rpm), je n'installais pas. J'ai eu trop de problèmes par le passé et j'ai perdu trop de temps avec ça.
Komenor is offline   Reply With Quote