Scanned books show in the view screen or e-reader often unwanted paragraphs in respect to book page numbers.
The terms may look different, but they appear
en masse and therefore elimination using S & R and regaxes would be advantageous.
Marked syntax (red) should be deleted. Note the book page numbers always differ (of course).
Where are our great regex masters!?
Some examples from different books:
Example 1
Code:
keine Anzeichen für körperliche Mängel zu erkennen. </p>
<p class="calibre2">Normal? Der US-Geheimdienst OSS (Office of Strategic 169</p>
<p class="calibre2"></p>
<p class="calibre2">Studies, Vorläufer der CIA), oder genauer, der von ihm
Example 2 Note hyphen, also to delete.
Code:
derartigen Mangel hingewiesen hätten, aber die ärztlichen Feststel-170</p>
<p class="calibre2"></p>
<p class="calibre2">lungen lauteten nach dem Krieg nicht anders als
Example 3
Code:
die natürlich ihre Blöße nicht deckten, denn es war </p>
<p class="calibre2">17</p>
<p class="calibre2"></p>
<p class="calibre2">keiner anwesend (außer mir), der nicht mindestens seine
Example 3a
Code:
das viel zu herb und zu modisch für sie ist, irgendein <b class="calibre3">19</b></p>
<p class="calibre2"></p>
<p class="calibre2">Zeug, das, glaube ich, Taiga heißt, noch in der Wohnung
Example 4 Note Roman rather than Arabic numerals!
Code:
bewundernden Kommentare von westlichen Besuchern in Maos China, XVI </p>
<p class="calibre2"></p>
<p class="calibre2">dass Chinesen außerordentliche Menschen seien, die es
Example 5
Code:
ihr Büro war für die [306] Sicherheit eines Parkabschnitts zuständig.
Interna: Ex1&2 Bedürftig (AHdAb), Ex3&3a Böll (AeC), Ex4&5 Chang (WS)