Calibre: Seitenzahlen von pdf in epub/mobi entfernen - Page 2

kbaerwald · 10-06-2010, 10:43 AM

Manchmal ist es besser die Kopf- oder Fußzeile bereits im pdf zu entfernen. Es gibt da ein kleines Java Snippet BRISS (Suchfunktion hier im Forum), welches ein pdf "schneidet" (Crop). Funktioniert, wenn die Position der Kopf- bzw- Fußzeile im pdf immer gleich ist. Mal ausprobieren.

Manichean · 10-06-2010, 06:36 PM

Quote:

Originally Posted by kbaerwald

Manchmal ist es besser die Kopf- oder Fußzeile bereits im pdf zu entfernen. Es gibt da ein kleines Java Snippet BRISS (Suchfunktion hier im Forum), welches ein pdf "schneidet" (Crop). Funktioniert, wenn die Position der Kopf- bzw- Fußzeile im pdf immer gleich ist. Mal ausprobieren.

Jetzt bin ich neugierig: Was ist daran besser, die vorher zu entfernen?

kbaerwald · 10-07-2010, 03:19 AM

... bei variierenden Kopf- und Fußzeilen ist das einfacher (jedenfalls für mich) als ständig eine Regex anzupassen. Bei "Zubehör" mitten im Text sieht das natürlich anders aus. Ich verwende das Cropping häufig bei gescantem Material.

Manichean · 10-07-2010, 04:45 AM

Quote:

Originally Posted by kbaerwald

... bei variierenden Kopf- und Fußzeilen ist das einfacher (jedenfalls für mich) als ständig eine Regex anzupassen. Bei "Zubehör" mitten im Text sieht das natürlich anders aus. Ich verwende das Cropping häufig bei gescantem Material.

Nun, da ich die regulären Ausdrücke sowieso individuell für jedes Buch schreibe, wenn ich welche brauche, stellt das für ich kein Problem dar

Pax · 10-20-2010, 12:49 PM

Das PDF bei mir gibt bei den Seitenanzahl es immer folgt an, z.b. für Seite eins "-1-". Was wäre da am besten?

Manichean · 10-21-2010, 05:22 AM

Quote:

Originally Posted by Pax

Das PDF bei mir gibt bei den Seitenanzahl es immer folgt an, z.b. für Seite eins "-1-". Was wäre da am besten?

Zwei Bemerkungen:
1. Interessant ist die Art, wie dies in der HTML- Zwischenstufe realisiert wird. In der Strukturerkennung bei den Konvertierungseinstellungen, klicke auf den Zauberstab bei Kopf-/Fußzeilenentfernung und suche in dem Code, der dann angezeigt wird, eine Seitenzahl.
2. Zur Entfernung siehe hier.

bjarneee · 10-23-2010, 03:57 AM

Quote:

Originally Posted by Pax

Das PDF bei mir gibt bei den Seitenanzahl es immer folgt an, z.b. für Seite eins "-1-". Was wäre da am besten?

Nun das kommt darauf an wie es genau in Deiner pdf-Datei aussieht. Du findest das in der Vorschau wenn Du den regulären Ausdruck erstellst. Nehmen wir mal an wir haben soetwas:

text 
-28- 
<hr>
<A name=29></a> text

dann würde der reguläre Ausdruck so aussehen: \s-\d{1,4}-\s \s<hr>\s<A name=\d{1,4}></a>

setzt sich dabei wie folgt zusammen
\s kennzeinet ein Leerzeichen oder Zeilenumbruch
\d bezeichnet beliebige Dezimalzahl
\d{1,4} bezeichnet eine Zahl die bis zu vier Stellen haben kann

bjarneee

Pax · 10-25-2010, 10:50 AM

OK, vielen Dank, werde ich bei Gelegenheit probieren.

Deckert&Moor · 12-12-2010, 11:39 AM

Wenn in der Vorschau die Seitenzahl mit ... 28 ... angegeben ist
sollte der reguläre Ausdruck so aussehen:

([0-9]+[0-99] )

Es funktioniert für die Seitenzahlen von 10 bis ...
Leider hab ich noch nicht heraus gefunden wie ich die Seitenzahlen bis 10 weg bekomme. Aber die paar Seitenzahlen kann man auch in der PDF entfernen.

Vielleicht hat ja jemand eine Idee wie man über die Regex auch die anderen weg bekommt

Manichean · 12-13-2010, 03:23 AM

Quote:

Originally Posted by Deckert&Moor

Wenn in der Vorschau die Seitenzahl mit ... 28 ... angegeben ist
sollte der reguläre Ausdruck so aussehen:

([0-9]+[0-99] )

Es funktioniert für die Seitenzahlen von 10 bis ...
Leider hab ich noch nicht heraus gefunden wie ich die Seitenzahlen bis 10 weg bekomme. Aber die paar Seitenzahlen kann man auch in der PDF entfernen.

Du hast zuviel im Regex angegeben. Übersetzt steht da "mindestens ein Zeichen zwischen 0 und 9 und ein Zeichen zwischen 0 und 9 oder 9 gefolgt von ". Das Set [0-99] ist in der Form nicht nur unsinnig- [0-9] erreicht das Gleiche- sondern auch noch überflüssig. Versuchs mal mit

Code:

[0-9]+<br>

Deckert&Moor · 12-13-2010, 11:23 AM

Hey, danke Manichean!!! Es funktioniert wirklich super

Hab mir gleich gedacht das es auch kürzer geht und ich was falsch mache.
Kenne mich mit Calibre noch nicht so gut aus und bin wohl eher durch Zufall darauf gekommen.

Nochmals

Manichean · 12-13-2010, 03:26 PM

Das ist eher ein prinzipieller Fehler im regulären Ausdruck. Guck Dir nochmal genau an, was ich schrieb.

Schaluppe · 10-20-2019, 09:10 AM

Hallo liebes Forum,
ich versuche gerade eine .pdf in .epub umzuwandeln und habe dabei das in diesem Thread diskutierte Problem mit den Seitenzahlen. Obendrein folgt auf die Seitenzahl auch stets der jeweilige Kapitelname. Das muss alles weg!
Der "Quellcode" sieht beispielsweise folgendermaßen aus:

Text
<a id="p10"></a>Einleitung
9
Text

Text
<a id="p28"></a>Quintessenz und Ausblick
27
Text

Nach anderthalb Stunden erfolglosem Herumsprobierens mit der Regex-Syntax bin ich mit den Nerven am Ende. Kann mir hier jemand helfen und die passende Befehlszeile nennen? Ich möchte endlich

Vielen Dank

Doitsu · 10-20-2019, 10:14 AM

Quote:

Originally Posted by Schaluppe

Text
<a id="p10"></a>Einleitung
9
Text

Text
<a id="p28"></a>Quintessenz und Ausblick
27
Text

Nach anderthalb Stunden erfolglosem Herumsprobierens mit der Regex-Syntax bin ich mit den Nerven am Ende. Kann mir hier jemand helfen und die passende Befehlszeile nennen? Ich möchte endlich

Vielen Dank

Ich nehme an, dass Du:

Code:

</p>
<p class="calibre1"><a id="p10"></a>Einleitung</p>
<p class="calibre1">9</p>

durch nichts oder ein Leerzeichen ersetzen möchtest.

Das müsste mit dem folgenden regulären Ausdruck klappen:

Code:

</p>\s+<p class="calibre\d+"><a id="p\d+"></a>.*?</p>\s+<p class="calibre\d+">\d+</p>\s+<p class="calibre\d+">

Falls Du damit auch falsche Treffer findest, kannst Du auch die folgende, etwas präzisere Variante verwenden:

Code:

</p>\s+<p class="calibre1"><a id="p\d+"></a>.*?</p>\s+<p class="calibre1">\d+</p>\s+<p class="calibre1">

Schaluppe · 10-20-2019, 01:06 PM

Vielen Dank für deine Antwort!
Der von dir gepostete Ausdruck hat zwar null Treffer ergeben (irgendwo im hinteren Drittel scheint was nicht zu stimmen) aber er hat mir das nötige Rüstzeug (Struktur und Befehle) gegeben um das letzte Drittel selber neu zu schreiben. Jetzt funktioniert's und ich kann endlich loslegen

12-12-2010, 11:39 AM	#24
Deckert&Moor Member Posts: 20 Karma: 10 Join Date: Dec 2010 Device: IQ & Omnia II	Wenn in der Vorschau die Seitenzahl mit ... 28<br> ... angegeben ist sollte der reguläre Ausdruck so aussehen: ([0-9]+[0-99]<br>) Es funktioniert für die Seitenzahlen von 10 bis ... Leider hab ich noch nicht heraus gefunden wie ich die Seitenzahlen bis 10 weg bekomme. Aber die paar Seitenzahlen kann man auch in der PDF entfernen. Vielleicht hat ja jemand eine Idee wie man über die Regex auch die anderen weg bekommt

10-20-2019, 09:10 AM	#28
Schaluppe Junior Member Posts: 2 Karma: 10 Join Date: Oct 2019 Device: Kobo	Hallo liebes Forum, ich versuche gerade eine .pdf in .epub umzuwandeln und habe dabei das in diesem Thread diskutierte Problem mit den Seitenzahlen. Obendrein folgt auf die Seitenzahl auch stets der jeweilige Kapitelname. Das muss alles weg! Der "Quellcode" sieht beispielsweise folgendermaßen aus: Text</p> <p class="calibre1"><a id="p10"></a>Einleitung</p> <p class="calibre1">9</p> <p class="calibre1">Text Text</p> <p class="calibre1"><a id="p28"></a>Quintessenz und Ausblick</p> <p class="calibre1">27</p> <p class="calibre1">Text Nach anderthalb Stunden erfolglosem Herumsprobierens mit der Regex-Syntax bin ich mit den Nerven am Ende. Kann mir hier jemand helfen und die passende Befehlszeile nennen? Ich möchte endlich Vielen Dank

Similar Threads
Thread	Thread Starter	Forum	Replies	Last Post
von .doc zu .epub über Calibre?	laura86	Software	3	06-29-2010 06:22 AM
Epub/Mobi TO pdf conversion problem	Hitch	Calibre	4	06-15-2010 05:28 PM
Entfernen von DRM bei Kindle eBooks klappt!	K-Thom	Amazon Kindle	3	01-14-2010 12:00 PM
Calibre: Header entfernen nicht mit aktueller Version ??	KimJ	Software	5	01-06-2010 12:39 AM
PDF -> LRF, ePUB, MOBI?	krischik	Calibre	12	07-23-2009 11:37 PM

10-06-2010, 10:43 AM	#16
kbaerwald BioReader Posts: 292 Karma: 42568 Join Date: Apr 2009 Location: Germany Device: Various	Manchmal ist es besser die Kopf- oder Fußzeile bereits im pdf zu entfernen. Es gibt da ein kleines Java Snippet BRISS (Suchfunktion hier im Forum), welches ein pdf "schneidet" (Crop). Funktioniert, wenn die Position der Kopf- bzw- Fußzeile im pdf immer gleich ist. Mal ausprobieren.

10-07-2010, 03:19 AM	#18
kbaerwald BioReader Posts: 292 Karma: 42568 Join Date: Apr 2009 Location: Germany Device: Various	... bei variierenden Kopf- und Fußzeilen ist das einfacher (jedenfalls für mich) als ständig eine Regex anzupassen. Bei "Zubehör" mitten im Text sieht das natürlich anders aus. Ich verwende das Cropping häufig bei gescantem Material.

10-20-2010, 12:49 PM	#20
Pax Zealot Posts: 135 Karma: 1052388 Join Date: Oct 2010 Location: Germany, Potsdam Device: Pocketbook Touch HD 3, Sony PRS 650	Das PDF bei mir gibt bei den Seitenanzahl es immer folgt an, z.b. für Seite eins "-1-". Was wäre da am besten?

10-25-2010, 10:50 AM	#23
Pax Zealot Posts: 135 Karma: 1052388 Join Date: Oct 2010 Location: Germany, Potsdam Device: Pocketbook Touch HD 3, Sony PRS 650	OK, vielen Dank, werde ich bei Gelegenheit probieren.

12-13-2010, 11:23 AM	#26
Deckert&Moor Member Posts: 20 Karma: 10 Join Date: Dec 2010 Device: IQ & Omnia II	Hey, danke Manichean!!! Es funktioniert wirklich super Hab mir gleich gedacht das es auch kürzer geht und ich was falsch mache. Kenne mich mit Calibre noch nicht so gut aus und bin wohl eher durch Zufall darauf gekommen. Nochmals

12-13-2010, 03:26 PM	#27
Manichean Wizard Posts: 3,130 Karma: 91256 Join Date: Feb 2008 Location: Germany Device: Cybook Gen3	Das ist eher ein prinzipieller Fehler im regulären Ausdruck. Guck Dir nochmal genau an, was ich schrieb.

10-20-2019, 01:06 PM	#30
Schaluppe Junior Member Posts: 2 Karma: 10 Join Date: Oct 2019 Device: Kobo	Vielen Dank für deine Antwort! Der von dir gepostete Ausdruck hat zwar null Treffer ergeben (irgendwo im hinteren Drittel scheint was nicht zu stimmen) aber er hat mir das nötige Rüstzeug (Struktur und Befehle) gegeben um das letzte Drittel selber neu zu schreiben. Jetzt funktioniert's und ich kann endlich loslegen