PDFtoPub

Alaska · 01-01-2011, 12:32 PM

Hier eine Softwareempfehlung:

http://www.pdftoepub.com/

Nahezu fehlerlos und ohne Nachbearbeitung. Der Hammer!

reymund · 01-01-2011, 02:03 PM

was steht in der Lizensvereinbarung? ich kann kein eng. wer weis was ich da unterschreibe!

Alaska · 01-01-2011, 03:24 PM

Quote:

Originally Posted by reymund

was steht in der Lizensvereinbarung? ich kann kein eng. wer weis was ich da unterschreibe!

Da steht doch nur, daß es 20000 Versionen umsonst gibt. Für die Vollversion.

Einige Fehler habe ich inzwischen doch gefunden. Trotzdem ein recht guter Ansatz und das erst mal ohne eigene Arbeit.

Marc_liest · 01-01-2011, 03:29 PM

Hat den schon jemand getestet?
AnyBizSoft PDF to EPUB for Mac, gibt es auch für Windows.

Alaska · 01-01-2011, 03:44 PM

Quote:

Originally Posted by Marc_liest

Hat den schon jemand getestet?
AnyBizSoft PDF to EPUB for Mac, gibt es auch für Windows.

Das scheint nicht viel zu taugen. Formatierung immer linksbündig und Seitenzahlen werden mitkonvertiert, mehr konnte ich bei den erlaubten 5 Seiten nicht erkennen. Mir wäre ja ein Mac-Programm auch lieber, hatte noch OCR-Kit ausprobiert, aber das Programm kann auch keine Seitenumbrüche erkennen. Scheint macspezifisch zu sein, Finereader-Express für den Mac kann das auch nicht, und verschluckt auch noch die Kapitel, dafür bleiben die meisten Seitenzahlen drin.

PDFtoPub spielt in einer anderen Liga und gibt es zur Zeit noch umsonst. Für solche Situationen gibt es ja Parallels.

Marc_liest · 01-01-2011, 03:50 PM

Quote:

Originally Posted by Alaska

PDFtoPub spielt in einer anderen Liga und gibt es zur Zeit noch umsonst. Für solche Situationen gibt es ja Parallels.

Ich habe es mal geladen, werde es ausprobieren.
Win Software kommt mir nicht auf den Mac. Hab ja auch noch ein paar Dosen rumstehen.
Für meinen privaten Gebrauch reicht mir meist der Convert-Service von Amazon.

Alaska · 01-01-2011, 03:54 PM

Quote:

Originally Posted by Marc_liest

Ich habe es mal geladen, werde es ausprobieren.
Win Software kommt mir nicht auf den Mac. Hab ja auch noch ein paar Dosen rumstehen.
Für meinen privaten Gebrauch reicht mir meist der Convert-Service von Amazon.

Der Amazon-Service ist geradezu unheimlich schnell und dafür erstaunlich gut. Aber wenn mal mehrere kurze Zeilen hintereinander kommen, wird das gesamte folgende Kapitel falsch interpretiert und dann hat man nach jeder Zeile einen Return.

Parallels brauche ich schon zum Entpacken der ePubs. Die alten Dosen habe ich alle entsorgt.

presto · 01-16-2011, 04:32 AM

Quote:

Originally Posted by Alaska

Einige Fehler habe ich inzwischen doch gefunden. Trotzdem ein recht guter Ansatz und das erst mal ohne eigene Arbeit.

Das Ergebnis ist Flattersatz - oder habe ich etwas übersehen??

Und eine Menge Absatzfehler bei meinem Probetext - sieht nicht besonders gut aus.

Das pdf in Finereader eingelesen und etwas Nacharbeit gefällt mir immer noch am Besten.

presto

troll05 · 01-16-2011, 05:10 AM

Gibts in irgendeinem Konverterprogramm eigentlich eine Einstellung, wie mehrspaltige PDFs vernünftig in ein beliebiges Fließtextformat umgebaut werden können?
Calibre legt Absatzweise like Spalte / rechte Spalte hintereinander, PDFtoEPUB kriegt es teilweise hin, kann dafür aber nur einzelne Bücher umwandeln, leider keine Stapelverarbeitung

Manichean · 01-16-2011, 06:00 AM

Quote:

Originally Posted by troll05

Gibts in irgendeinem Konverterprogramm eigentlich eine Einstellung, wie mehrspaltige PDFs vernünftig in ein beliebiges Fließtextformat umgebaut werden können?
Calibre legt Absatzweise like Spalte / rechte Spalte hintereinander, PDFtoEPUB kriegt es teilweise hin, kann dafür aber nur einzelne Bücher umwandeln, leider keine Stapelverarbeitung

Kovid hat eine neue PDF- Engine für Calibre in Arbeit, die meines Wissens mit mehrspaltigem Text zurechtkommen soll. Ich habe aber noch kein Datum gehört, wann die fertig sein soll.

troll05 · 01-21-2011, 04:15 AM

Hab Kovid angeschriebe, die Engine ist tatsächlich in Arbeit

Leider braucht er noch ca.ein halbes Jahr

Gibt es sonst noch irgendein taugliches Programm was ausser Spalten auch noch mehrere Dateien auf einmal konvertieren kann? Mit PDFtoEPUB geht zwar die Konvertierung einigermassen, aber mehrere Tausend Dokumente einzeln umbauen ist ziemlich zeitaufwändig

Stenis · 01-26-2011, 04:14 AM

Quote:

Originally Posted by Alaska

Hier eine Softwareempfehlung:

http://www.pdftoepub.com/

Nahezu fehlerlos und ohne Nachbearbeitung. Der Hammer!

Moin, sehe ich auch so. Ich habe vermutlich alle Verfahren ausprobiert, es gibt zur Zeit nichts besseres !

Allerdings sollte man ein paar Dinge anpassen:

1. Im Verzeichnis scripts gibts die Datei tohtml.lua (den Verweis auf die Datei kann man in der Ini-Datei ändern => \\doku..\anwendungsdaten\pdf.. etc). In dieser Datei steht in Zeile 1971 u. 1977:

need_extrac_space_before_str=true

das erzeugt dummerweise bei getrennten Wörter (weichen Trennstrich) oft ein unschönes Leerzeichen => auskommentieren oder auf false setzen, in den meisten Fällen ist das schriftbild dann annähernd sauber.

2. Die Kapitelerkennung funktioniert leider nicht sauber oder eigentlich gar nicht.

Deshalb Zeile 132 anpassen:

g_page_num_of_chapters={ {25,"Seite 1-25"}, {50,"Seite 26-50"}, {75,"Seite 76-100"}.....

Dadurch werden die Seiten hardcodiert getrennt und so im TOC angezeigt, reduziert auch die Ladezeit in Stanza.

Das war auch schon das Wichtigste :-)

3. Darauf achten, daß in g_book_title, g_book_author und g_book_publisher (Zeile 82, 86, 89) keine deutschen Sonderzeichen eingetragen werden, die Konvertierung bricht sonst ab.

4. Die Config-Datei Main.ini (in Anwendungsdaten\\usw.) kann man scriptmäßig anpassen, um so nur noch ein paar Klicks zu machen, auch hier darauf achten, daß keine deutschen Sonderzeichen erlaubt sind, Datei also ggf. umbenennen.

recent_pdf1=E:\\[ordner]\[name].pdf

5. Der Editor wird ebenfalls in der Ini-Datei gesetzt, im Programm selbst läßt sich der Pfad nicht anpassen:

editor=C:\\Programme\\editor\\editor.exe

Die Ergebnisse sind, wie gesagt, die besten die ich bisher gesehen habe, und zwar für epub (Stanza auf Ipad) und auch für mobi (Kindle DX Graphite).

gruss stefan

troll05 · 01-26-2011, 05:38 AM

Quote:

Originally Posted by Stenis

Moin, sehe ich auch so. Ich habe vermutlich alle Verfahren ausprobiert, es gibt zur Zeit nichts besseres !

Allerdings sollte man ein paar Dinge anpassen:

1. Im Verzeichnis scripts gibts die Datei tohtml.lua (den Verweis auf die Datei kann man in der Ini-Datei ändern => \\doku..\anwendungsdaten\pdf.. etc)?. In dieser Datei steht in Zeile 1971 u. 1977:

need_extrac_space_before_str=true

das erzeugt dummerweise bei getrennten Wörter (weichen Trennstrich) oft ein unschönes Leerzeichen => auskommentieren oder auf false setzen, in den meisten Fällen ist das schriftbild dann annähernd sauber.

2. Die Kapitelerkennung funktioniert leider nicht sauber oder eigentlich gar nicht.

Deshalb Zeile 132 anpassen:

g_page_num_of_chapters={ {25,"Seite 1-25"}, {50,"Seite 26-50"}, {75,"Seite 76-100"}.....

Dadurch werden die Seiten hardcodiert getrennt und so im TOC angezeigt, reduziert auch die Ladezeit in Stanza.

Das war auch schon das Wichtigste :-)

3. Darauf achten, daß in g_book_title, g_book_author und g_book_publisher (Zeile 82, 86, 89) keine deutschen Sonderzeichen eingetragen werden, die Konvertierung bricht sonst ab.

4. Die Config-Datei Main.ini (in Anwendungsdaten\\usw.) kann man scriptmäßig anpassen, um so nur noch ein paar Klicks zu machen, auch hier darauf achten, daß keine deutschen Sonderzeichen erlaubt sind, Datei also ggf. umbenennen.

recent_pdf1=E:\\[ordner]\[name].pdf

5. Der Editor wird ebenfalls in der Ini-Datei gesetzt, im Programm selbst läßt sich der Pfad nicht anpassen:

editor=C:\\Programme\\editor\\editor.exe

Die Ergebnisse sind, wie gesagt, die besten die ich bisher gesehen habe, und zwar für epub (Stanza auf Ipad) und auch für mobi (Kindle DX Graphite).

gruss stefan

Servus un danke für ie Info.

könntest du die geänderte Datei evtl. uploaden, wenn ich sie im Wordpad ändere funktioniert sie nicht mehr, und im Editor finde ich die Zeilen nicht.
Muss die Zeile 132 für jedes Buch entsprechend der Kapitel neu geändert werden, oder ist das einmalig und klappt dann immer?

Stenis · 01-26-2011, 08:02 AM

Wordpad ist für sowas auch nur bedingt geeignet, nimm einfach den Editor, drück Strg-f und such die Zeilen, wo "need_extrac_space_before_str" drin steht, dann kommst Du automatisch dahin:

local need_extrac_space_before_str=false
-- insert a space character
if os==nil then
if merged_with_prev_obj then
-- I'm sure this is the first object in whole page
need_extrac_space_before_str=true
end
-- first string in the current object
elseif os.str:byte(#os.str)~=CHAR_SPACE and crt_str:byte(1)~=CHAR_SPACE then
if math.abs(s.x-os.x1)>=g_min_space_width then
if not (s.x-os.x1<0 and os.str:byte(#os.str)==CHAR_MINUS) then
need_extrac_space_before_str=true
end
end
else

Dann die Zeille mit -- auskommentieren, alternativ true durch false ersetzen, speichern. Alternativ ConText runterladen, ist free und hat Zeilenanzeige.

Zeile 132 bleibt so drin, ist also einmalig, ich habe sie nur bis jetzt nur bis Seite 175 gemacht, den Rest muss ich nochmal machen, ist aber ein bißchen frickelig, offenbar muss man die Leerzeichen und so auch wirklich genau einhalten sonst gibt (relativ sinnfreie) Fehlermeldungen und dann geht das Suchen los, also am besten immer Schritt für Schritt.

g_page_num_of_chapters={ {25,"Seite 25-49"}, {50,"Seite 50-75"}, {75,"Seite 76-100"}, {100,"Seite 101-125"}, {125,"Seite 126-150"}, {150,"Seite 151-175"}, {175,"Seite 151-175"} }

troll05 · 01-26-2011, 08:39 AM

Danke, jetzt sind zwar die Leerstellen mitten in den Worten weg, aber dafür werden auch alle Zeilenübergänge zusammengeschrieben, sieht dann so aus

"...daß mansich..."

Hab ich da was falsch gemacht?

"-- I'm sure this is the first object in whole page
need_extrac_space_before_str=false
end
-- first string in the current object
elseif os.str:byte(#os.str)~=CHAR_SPACE and crt_str:byte(1)~=CHAR_SPACE then
if math.abs(s.x-os.x1)>=g_min_space_width then
if not (s.x-os.x1<0 and os.str:byte(#os.str)==CHAR_MINUS) then
need_extrac_space_before_str=false
end"

Und kannst du ohne grossen Aufwand fesstellen, was man ändern muss, damit der default beim Speichern ist "Create Cover from first Page"?

01-01-2011, 12:32 PM	#1
Alaska Leser Posts: 864 Karma: 47176 Join Date: Nov 2009 Location: Berlin, Germany Device: Kindle Scribe	PDFtoPub Hier eine Softwareempfehlung: http://www.pdftoepub.com/ Nahezu fehlerlos und ohne Nachbearbeitung. Der Hammer! Last edited by Alaska; 01-05-2011 at 06:04 AM.

01-01-2011, 02:03 PM	#2
reymund Evangelist Posts: 485 Karma: 153494 Join Date: Mar 2010 Location: linker Niederrhein Device: Kindle, Kindle HDX 9,7 " symco V6L	was steht in der Lizensvereinbarung? ich kann kein eng. wer weis was ich da unterschreibe!

01-01-2011, 03:29 PM	#4
Marc_liest Early Adopter Posts: 3,161 Karma: 3534948 Join Date: Oct 2008 Location: hier und da Device: einige	Hat den schon jemand getestet? AnyBizSoft PDF to EPUB for Mac, gibt es auch für Windows.

01-16-2011, 05:10 AM	#9
troll05 Harmless idiot Posts: 3,411 Karma: 2154829 Join Date: Nov 2010 Location: Zuhause Device: PB622, Nexus7, Sony PRS 350, Tolino und nur noch wenig toter Baum:(	Gibts in irgendeinem Konverterprogramm eigentlich eine Einstellung, wie mehrspaltige PDFs vernünftig in ein beliebiges Fließtextformat umgebaut werden können? Calibre legt Absatzweise like Spalte / rechte Spalte hintereinander, PDFtoEPUB kriegt es teilweise hin, kann dafür aber nur einzelne Bücher umwandeln, leider keine Stapelverarbeitung

01-21-2011, 04:15 AM	#11
troll05 Harmless idiot Posts: 3,411 Karma: 2154829 Join Date: Nov 2010 Location: Zuhause Device: PB622, Nexus7, Sony PRS 350, Tolino und nur noch wenig toter Baum:(	Hab Kovid angeschriebe, die Engine ist tatsächlich in Arbeit Leider braucht er noch ca.ein halbes Jahr Gibt es sonst noch irgendein taugliches Programm was ausser Spalten auch noch mehrere Dateien auf einmal konvertieren kann? Mit PDFtoEPUB geht zwar die Konvertierung einigermassen, aber mehrere Tausend Dokumente einzeln umbauen ist ziemlich zeitaufwändig

01-26-2011, 08:02 AM	#14
Stenis Connoisseur Posts: 65 Karma: 306 Join Date: May 2007 Location: Husum, Nf Device: PRS505, Ipad	Wordpad ist für sowas auch nur bedingt geeignet, nimm einfach den Editor, drück Strg-f und such die Zeilen, wo "need_extrac_space_before_str" drin steht, dann kommst Du automatisch dahin: local need_extrac_space_before_str=false -- insert a space character if os==nil then if merged_with_prev_obj then -- I'm sure this is the first object in whole page need_extrac_space_before_str=true end -- first string in the current object elseif os.str:byte(#os.str)~=CHAR_SPACE and crt_str:byte(1)~=CHAR_SPACE then if math.abs(s.x-os.x1)>=g_min_space_width then if not (s.x-os.x1<0 and os.str:byte(#os.str)==CHAR_MINUS) then need_extrac_space_before_str=true end end else Dann die Zeille mit -- auskommentieren, alternativ true durch false ersetzen, speichern. Alternativ ConText runterladen, ist free und hat Zeilenanzeige. Zeile 132 bleibt so drin, ist also einmalig, ich habe sie nur bis jetzt nur bis Seite 175 gemacht, den Rest muss ich nochmal machen, ist aber ein bißchen frickelig, offenbar muss man die Leerzeichen und so auch wirklich genau einhalten sonst gibt (relativ sinnfreie) Fehlermeldungen und dann geht das Suchen los, also am besten immer Schritt für Schritt. g_page_num_of_chapters={ {25,"Seite 25-49"}, {50,"Seite 50-75"}, {75,"Seite 76-100"}, {100,"Seite 101-125"}, {125,"Seite 126-150"}, {150,"Seite 151-175"}, {175,"Seite 151-175"} }

01-26-2011, 08:39 AM	#15
troll05 Harmless idiot Posts: 3,411 Karma: 2154829 Join Date: Nov 2010 Location: Zuhause Device: PB622, Nexus7, Sony PRS 350, Tolino und nur noch wenig toter Baum:(	Danke, jetzt sind zwar die Leerstellen mitten in den Worten weg, aber dafür werden auch alle Zeilenübergänge zusammengeschrieben, sieht dann so aus "...daß mansich..." Hab ich da was falsch gemacht? "-- I'm sure this is the first object in whole page need_extrac_space_before_str=false end -- first string in the current object elseif os.str:byte(#os.str)~=CHAR_SPACE and crt_str:byte(1)~=CHAR_SPACE then if math.abs(s.x-os.x1)>=g_min_space_width then if not (s.x-os.x1<0 and os.str:byte(#os.str)==CHAR_MINUS) then need_extrac_space_before_str=false end" Und kannst du ohne grossen Aufwand fesstellen, was man ändern muss, damit der default beim Speichern ist "Create Cover from first Page"?