Register Guidelines E-Books Search Today's Posts Mark Forums Read

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > Erste Hilfe

Notices

Reply
 
Thread Tools Search this Thread
Old 11-24-2009, 09:44 AM   #1
polyfragmentiert
Groupie
polyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshes
 
polyfragmentiert's Avatar
 
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
Tipps zur Vorbereitung einer ePub-Datei aus zweispaltiger PDF-Vorlage

Hey-hey,

ich hab' jetzt mein erstes Projekt für eine ePub-Datei gefunden und hätte gern ein paar Tipps von Euch Kräcks:

Die Vorlage ist ein zweispaltiges PDF*, das mir in der Vorbereitung zur Umwandlung nach ePub einiges an Arbeit macht. Ich versuche einen möglichst effizienten Arbeitsablauf zu erarbeiten. Zusätzlich möchte ich möglichst viel über die ePub-Erstellung lernen und hab' bereits ein paar Ansätze verfolgt:
  • .pdf in Calibre laden und nach ePub konvertieren -> Datei wurde größer als das Original, Formatierungen größtenteils nicht akzeptabel
  • .pdf in Calibre laden und nach .txt konvertieren -> Zweispalten-Problem
  • Text per Hand kopieren und nachbearbeiten -> Zweispalten-Problem

Ach ja, die eigentliche Erstellung mache ich bislang mit Sigil, da es eine Split-Ansicht hat, in der auch das XHTML-Markup sichtbar/bearbeitbar ist. Bei der Erstellung des Inhaltsverzeichnisses könnte Sigil auch sehr nützlich sein.

Das erwähnte "Zweispalten-Problem" besteht darin, dass der Text über die Zwischenablage zwar in eine Spalte überführt wird, die ehemals zwei Spalten aber nicht getrennt, sondern in eine Spalte nebeneinander gequetscht wurden. Das heißt, ich muss jede Zeile per Hand splitten und danach die Zeilenvorschübe entfernen. Letzteres ist nicht das Problem, das mach' ich im Editor per Regex und "Suchen/Ersetzen". Das Splitten der zwei-Spalten-in-einer kriege ich nicht ohne viel Arbeit hin, Blockeditieren lässt sich der Text hier in Aptana/Komodo Edit/Gedit unter Linux irgendwie nicht. Oder ich hab's bisher nicht richtig gemacht.

Habt Ihr schonmal so eine Konversion selbst gemacht und falls ja, habt Ihr Tipps für mich?

Freue mich über jedweden Hinweis und wenn es RTFM! plus Verweis auf Doku/Software ist.

* Ich kann aus lizenzrechtlichen Gründen die Vorlage leider nicht zugänglich machen.

Last edited by polyfragmentiert; 11-24-2009 at 12:21 PM.
polyfragmentiert is offline   Reply With Quote
Old 11-24-2009, 04:53 PM   #2
polyfragmentiert
Groupie
polyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshes
 
polyfragmentiert's Avatar
 
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
Ein vielversprechender Ansatz in Sachen "Spalten auseinanderklabüstern" ist das Tool "pdftotext" aus den "psutils" unter Linux:

Code:
pdftotext -raw
Das sieht schon sehr gut aus, morgen geht's weiter.

Last edited by polyfragmentiert; 11-25-2009 at 10:23 AM.
polyfragmentiert is offline   Reply With Quote
Old 11-25-2009, 12:02 AM   #3
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Es gibt die Möglichkeit, mit pdfcrop eine auch für Reader lesbare Datei zu schaffen. Allerdings ist das keine Konversion im üblichen Sinne.
mtravellerh is offline   Reply With Quote
Old 11-25-2009, 12:05 AM   #4
Targor
The cake is a lie
Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.Targor ought to be getting tired of karma fortunes by now.
 
Targor's Avatar
 
Posts: 442
Karma: 354530
Join Date: May 2009
Device: PB 360
Wird dir evt. nicht viel helfen, weiß nicht ob es unter Linux PDF Software gibt, die derartiges kann. Für mein Ubuntu habe ich nichts dergleichen, aber ich hatte mal eine pdf Datei wo jeweils eine Doppelseite eines Buches pro (Quergelegte) PDF Seite abgebildet war (Schwarzbuch der Steuerverschwendung) Dort habe ich per PDF Software erst die linke Hälfte ausgeschnitten, dann die entstandene .pdf Datei in Einzelseiten spalten lassen und per Rename-Tool (Empfehlung: joe) von 1 mit 2er Schritten durchnummeriert, also 1, 3, 5, 7 ..., dann das selbe mit rechts, nur von 2 an mit 2er Schritten durchnummeriert also 2, 4, 6 .... Dann das Ganze der Reihenfolge nach zusammengefügt und ich hatte die Seiten statt jeweils zwei nebeneinander einzeln untereinander, selbiges dürfte auch bei Zweispaltenpdfs möglich sein und könnte Vorteile beim Umwandeln geben.
Targor is offline   Reply With Quote
Old 11-25-2009, 03:08 AM   #5
Fellball
Wizard
Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.Fellball knows how to set a laser printer to stun.
 
Fellball's Avatar
 
Posts: 1,430
Karma: 95000
Join Date: Dec 2007
Location: Germany, near Bingen/Rhein
Device: K3,K4,PB360,PB360+,PB701-IQ und noch diverse andere Lesegeräte....
2-spaltige PDF's jage ich immer duch eine OCR-Software wenn ich sie umwandeln will.
Meistens funktioniert das ganz gut.
Fellball is offline   Reply With Quote
Old 11-25-2009, 05:58 AM   #6
Lino
Connoisseur
Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.
 
Posts: 70
Karma: 482
Join Date: Nov 2009
Device: Pocketbook 360 black
Quote:
Originally Posted by polyfragmentiert View Post
Das Splitten der zwei-Spalten-in-einer kriege ich nicht ohne viel Arbeit hin, Blockeditieren lässt sich der Text hier in Aptana/Komodo Edit/Gedit unter Linux irgendwie nicht. Oder ich hab's bisher nicht richtig gemacht.
Ich weiss nicht ob's hilft, aber in vim kannst du Spaltenblöcke editieren:

Steuerung+V schaltet in den "Visual Modus".
Mit den Pfeiltasten kannst du einen Block markieren.
Diesen dann ganz normal mit "y" kopieren.

Gruß
Lino
Lino is offline   Reply With Quote
Old 11-25-2009, 06:53 AM   #7
Lino
Connoisseur
Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.Lino has a complete set of Star Wars action figures.
 
Posts: 70
Karma: 482
Join Date: Nov 2009
Device: Pocketbook 360 black
Ausgehend von der *.txt Datei mit zwei Spaltenblöcken, könntest Du es unter Linux auch ohne Editor per Script versuchen:

cat datei.txt | cut -cN-M

wobei:

N Zeichen beginnend von 1
N- von Zeichen bis zum Ende der Zeile
N-M vom Nten zum Mten (einschl.)Zeichen
-M vom ersten zum Mten (einschl.) Zeichen

Beispiel:

ab Spalte 50 bis Zeilenende ausschneiden und in neu.txt speichern

cat datei.txt | cut -c50- >neu.txt

Ob's so wie gewünscht funktioniert, hängt auch davon ab, ob noch Steuerzeichen in der konvertierten txt Datei enthalten sind.

Gruß
Lino
Lino is offline   Reply With Quote
Old 11-25-2009, 09:00 AM   #8
polyfragmentiert
Groupie
polyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshes
 
polyfragmentiert's Avatar
 
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
Danke schonmal für Eure vielfältigen Tipps Ich schau' mit die von pdftotext erzeugte Datei erstmal genauer an, behalte Eure Hinweise aber im Hinterkopf.

Edit: Ich mach's für dieses Mal über den folgenden Weg:
  • pdftotext -raw input-datei.pdf
  • In Komodo Edit: Zeilenvorschübe vom Ende jeder Zeile selektiv (absatzweise) durch " " ersetzen -> der Suchen-/Ersetzen-Dialog ist mein Freund*
  • In Sigil: bearbeiteten Text einfügen und nötigenfalls nachbearbeiten

* Für den Vorgang hab' ich noch ein Makro mit Tastaturkürzel angelegt, so dass das schon recht fix geht.

Das nimmt mir schonmal einiges an Arbeit ab, die umzuwandelnde Datei ist ohne Bilder nur etwa 15 Seiten lang.

Nochmals danke für Eure Hinweise, die ich später teilweise noch ausprobieren werde. Ihr seid super und bekommt alle Karma, auch wenn's zur Zeit nur 4 Einheiten sind, hehe. Kleinvieh macht ja bekanntlich auch Mist.

Last edited by polyfragmentiert; 11-25-2009 at 03:41 PM.
polyfragmentiert is offline   Reply With Quote
Old 11-25-2009, 01:35 PM   #9
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Quote:
Originally Posted by polyfragmentiert View Post
der Suchen-/Ersetzen-Dialog ist mein Freund

Ist auch mein bester Kumpel, besonders wenn er RegEx kann!!
mtravellerh is offline   Reply With Quote
Old 11-27-2009, 08:27 AM   #10
polyfragmentiert
Groupie
polyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshes
 
polyfragmentiert's Avatar
 
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
Ein sehr schöner Nebeneffekt der TOC-Funktion von Sigil ist, dass man da mit der Übersicht die eigene Überschriftenhierarchie überprüfen kann. Im reinen Markup-Modus kann man da schon Mal durcheinander kommen.

Ich lerne gerade tiefe Demut vor den Leuten, die ganze Bücher oder sogar Buchreihen bearbeiten. Da steckt schon eine Menge Grob- und Detail-Arbeit drin. <virtuelles Karma verteil'>

Last edited by polyfragmentiert; 11-27-2009 at 09:03 AM.
polyfragmentiert is offline   Reply With Quote
Old 11-27-2009, 12:51 PM   #11
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Quote:
Originally Posted by polyfragmentiert View Post
Ein sehr schöner Nebeneffekt der TOC-Funktion von Sigil ist, dass man da mit der Übersicht die eigene Überschriftenhierarchie überprüfen kann. Im reinen Markup-Modus kann man da schon Mal durcheinander kommen.

Ich lerne gerade tiefe Demut vor den Leuten, die ganze Bücher oder sogar Buchreihen bearbeiten. Da steckt schon eine Menge Grob- und Detail-Arbeit drin. <virtuelles Karma verteil'>
Danke, danke. Ich fühl mich geehrt!

Uebrigens Poly: PB 360 kann mehrspaltige PDFs Spalte für Spalte lesen und verbreitert dabei jede Spalte auf volle Bildschirmbreite (springt von Spalte 1 zu Spalte 2 und dann erst zur nächsten Seite)! Ist der Glanz für Romanhefte!
mtravellerh is offline   Reply With Quote
Old 11-27-2009, 12:54 PM   #12
polyfragmentiert
Groupie
polyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshes
 
polyfragmentiert's Avatar
 
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
Quote:
Originally Posted by mtravellerh View Post
Uebrigens Poly: PB 360 kann mehrspaltige PDFs Spalte für Spalte lesen und verbreitert dabei jede Spalte auf volle Bildschirmbreite (springt von Spalte 1 zu Spalte 2 und dann erst zur nächsten Seite)! Ist der Glanz für Romanhefte!
Ja, ich las es bereits in Deinem Testfaden, super Sache!
polyfragmentiert is offline   Reply With Quote
Old 11-29-2009, 08:05 AM   #13
Sturgis
Groupie
Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.
 
Sturgis's Avatar
 
Posts: 165
Karma: 496
Join Date: Nov 2009
Location: Germany
Device: Pocketbook 360, iPodTouch
Hallo,

bin hier ganz neu und habe mich gerade erst angemeldet.

Zweispaltige PDF´s wandle ich immer mit "Stanza Desktop" in .epub Dateien um. Das funktioniert eigentlich ganz leidlich, jedenfalls habe ich damit immer bessere Ergebnisse erzielt als mit Calibre. Allerdings beachtet "Stanza Desktop" bei der Umwandling keine Grafiken, was (je nachdem welches Ergebniss man erwartet) ein Nachteil aber auch ein gewaltiger Vorteil sein kann.

Grüße von Sturgis.
Sturgis is offline   Reply With Quote
Old 11-29-2009, 08:32 AM   #14
polyfragmentiert
Groupie
polyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshespolyfragmentiert can read faster than his screen refreshes
 
polyfragmentiert's Avatar
 
Posts: 181
Karma: 14258
Join Date: Oct 2009
Location: Kiel, Germany
Device: SONY PRS-T1, bald tolino vision 3 HD
Hi Sturgis,

danke für Deinen Einwurf.

Die Methode mit dem genannten pdftotext -raw und die manuelle Weiterbearbeitung funktioniert hier sehr gut. Ich muss dazu sagen, dass ich es aber auch drauf angelegt habe, das möglichst manuell zu machen.

Sollte ich später mal umfangreichere Werke bearbeiten, werd' ich mir auch mal "Stanza Destop" anschauen.

Willkommen bei MobileRead!
polyfragmentiert is offline   Reply With Quote
Old 02-24-2010, 05:23 AM   #15
stg
Junior Member
stg began at the beginning.
 
Posts: 1
Karma: 10
Join Date: Feb 2010
Location: Germany, Berlin
Device: android, G1
Ich habe jetzt mal pdftotext so gehackt, dass es bei meinem PDF-Dateien auch bei zweispaltigen Text saubere Ergebnisse liefert und fast keine manuelle Nacharbeit nötig ist .
  1. Poppler laden: http://poppler.freedesktop.org/poppler-0.12.4.tar.gz
  2. auspacken: tar -txvf poppler-0.12.4.tar.gz
  3. und patchen mit der Datei im Anhang: cd poppler-0.12.4; zcat <pathto>/poppler-0.12.4-format.diff.gz | patch -p1
  4. INSTALL lesen und übersetzen

Umbrüche werden nun vor jeder Einrückung, nach jedem Block und nach jeder neuen Seite erzeugt. Es gibt nun eine Option -noblkbrk, die die Umbrüche nach neuen Blocks abschaltet. Das Sortieren der Blöcke erfolgt nun von links nach rechts und etwas entspannter.

Ein Aufruf von
Code:
pdftotext  -noblkbrk   <pdffile>
erzeugt Text mit Seitenumbrüchen.

Wenn man keine Seitenumbrüche haben will, sollte man Kopf und Fußzeilen abscheiden:
Code:
pdftotext -x 60 -y 80 -W 475 -H 682 -noblkbrk  -nopgbrk <pdffile>
. Die Werte für den Rand sind aber nur Beispiele und an das Format anzupassen.

Ich kann damit aus meinen PDF's gut lesbaren Text für FBReader erzeugen, aber es ist sicher nicht für alle Fälle brauchbar.
Attached Files
File Type: gz poppler-0.12.4-format.diff.gz (2.3 KB, 551 views)
stg is offline   Reply With Quote
Reply

Tags
epub conversion, epub creation

Thread Tools Search this Thread
Search this Thread:

Advanced Search

Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Wie kann aus Dateinamen der Titel der PDF Datei erzeugen? Dringend! Shyne Erste Hilfe 2 06-06-2010 05:40 PM
Calibre - Metadaten aus Html Datei lesen horseman Software 3 04-18-2010 06:18 AM
epub in mobi ist die Datei immer soviel größer? mos E-Books 4 01-09-2010 06:30 PM
Probleme beim Öffnen von großer ePub Datei ise PocketBook 2 12-21-2009 05:00 AM
Frage zu ungültiger ePub-Datei und Inhaltsverzeichnis polyfragmentiert Erste Hilfe 4 11-22-2009 08:09 AM


All times are GMT -4. The time now is 03:37 AM.


MobileRead.com is a privately owned, operated and funded community.