Bonjour,
Quelques idées, notées en vrac qui vont dans le sens d’une approche pragmatique. Vous allez directement à celle qui vous intéresse.
La cote d’alerte est atteinte.
J’ai publié il y a quelques jours
Les derniers jours de Pékin pour m’apercevoir, en fréquentant un autre forum, que ce livre avait déjà été publié sur Gutenberg sous forme d’epub. Après
Les Pléiades, c’est un deuxième titre qui fait l’objet d’une duplication involontaire. Jusqu’à présent, j’avais principalement publié des ouvrages historiques tellement confidentiels que j’avais échappé à ce phénomène.
Maintenant, la cote d’alerte est atteinte pour moi....
Le mieux est l’ennemi du bien
Idéalement, les oeuvres en cours de numérisation devraient pouvoir être incluses pour prévenir toute duplication des efforts.
Leur absence n’est toutefois pas dramatique. Faisons un petit calcul à la Bigard.
Admettons que les œuvres en cours de numérisation au cours d’une année calendaire représentent entre 12 et 24% du total déjà numérisé. Cela me parait un chiffre optimiste, mais admettons. Cela ne fait que 1 à 2% par mois.
Si l’on effectue une mise à jour mensuelle, le résultat obtenu recensera à un instant t entre 98 et 99% des œuvres numérisées. Certes il peut encore y avoir de la duplication dans le reliquat, mais cette probabilité est alors devenue très faible.
Ce n’est pas parce qu’on n’est pas parfaits que l’on ne doit pas essayer d’être très bons tout de suite....
La sémantique contre la centralisation.
Absence de critère universel
Quel critère retenir pour estimer qu’une œuvre doit faire partie de la base ?
- la langue : française (encore faut-il le dire)
- le format : il y a pléthore. Une image PDF de Gallica en fait-elle partie? Les livres audio ? Un seul format, tous les formats ?
- les droits (domaine public oui mais lequel ? canadien, français....)
On voit bien à partir de là qu’il y a des différence qui ne sont pas faciles à combler.
Absence de nom générique
Outre le nom de l’auteur et le titre de l’oeuvre, comment la rechercher la plus efficacement sur Google? Il y a bien
etext mais c’est surtout Gutenberg,
ebook semble plus répandu mais pas universel...
epub mais il y a
mobi, etc...
La conclusion est que ce n’est pas clair. Chacun voit midi à sa porte. Et il a raison. L’important c’est que sa «production» soit connue
Ce serait la première difficulté à surmonter avant de mettre au point une base de données centralisée. Mais d’ailleurs...
Un fichier centralisé ? Pourquoi ?
Il me semble que nous pourrions faire l’économie d'un fichier centralisé. Plutôt que de contacter chaque acteur de l’éco-système et de tenter de le persuader de collaborer selon des lignes encore incertaines, il me semble que l’on pourrait tenter une autre approche, du haut vers le bas.
On peut imaginer une procédure qui garantisse l'indexation périodique par les robots de Google.
Il nous appartiendrait ensuite simplement d'informer chaque éditeur souhaitant participer de la procédure à suivre pour que sa production soit à coup sûr "visible" par le robot.
Après, ce sera à chaque éditeur, dûment prévenu, de balayer devant sa porte. Pourquoi ne le ferait-il pas ? Son intérêt n’est-il pas que les œuvres qu’il publie soient diffusées ?
C’est pourquoi, après avoir dégrossi la question entre nous, il me semble qu’un contact avec Google serait sans doute fructueux. Nous aurions la garantie d’avoir des conseils efficaces. C’est aussi l’intérêt de Google.