Buchmacher-Treff: Small Talk & Diskussionen - Page 102

Doitsu · 02-04-2017, 08:24 AM

Quote:

Originally Posted by pynch

Kann jemand entziffern, was sie im Bild anstelle der Nummer geschrieben hat?

Ich würde das als "This No. xxx out of series" lesen. (Die xxx stehen natürlich nicht da.)

Du solltest das zur Kontrolle auch noch im englischen Forum fragen, weil die Amis und Briten andere Kursivbuchstaben in der Schule gelernt haben.

pynch · 02-04-2017, 08:36 AM

Danke, “out of series” klingt sehr überzeugend. Die beiden Binnengroßstaben hatten mich rausgebracht.

doubleshuffle · 02-04-2017, 08:45 AM

Ja, das klingt sehr gut. Wäre ich nicht draufgekommen.

Könnte es allerdings sein, dass da dann gar keine Nummer mehr davor soll: "out of series" als "außer der Reihe", also ein Druck, der nicht zu den 250 Verkaufsexemplaren gehört?

pynch · 02-04-2017, 09:06 AM

Stimmt, das “out of series” ersetzte die Nummern. Hier der betreffende Abschnitt aus der Bibliographie (in die reinzuschauen mir auch früher hätte einfallen können):

“There is a preliminary state in which p. [5] is printed: ‘This edition is limited to (125)250 numbered copies, ….’ and in place of the number in purple ink ‘out of series’ is recorded in purple ink by Leonard Woolf. Leonard Woolf stated that this limited edition was heavily over-subscribed and that, probably after printing the free copies, it was decided to double the number of copies printed. The copies already printed, were altered as above, and the printed number 125 then changed to 250. The preliminary state probably comprises 25 copies which were distributed free. J. Howard Woolmer refers to copy No. 250 which he has seen and noted in his A Checklist of the Hogarth Press 1917-1938, London, The Hogarth Press, 1976, Item 245: it carries the altered limitation. It is possible, therefore, that the limitation of more than 25 copies was altered as above.”

pynch · 02-05-2017, 06:50 AM

Die generalüberholte Virginia-Woolf-Ausgabe, von der ich sprach, ist jetzt übrigens online.

fromgdr · 02-14-2017, 07:39 AM

Hallo (mal wieder),
weiter vorn habt ihr mir mit den falschen Anführungszeichen geholfen. Das Sigil PunctuationSmarten-plugin funktioniert soweit ganz gut, aber ...
Es gibt immer ein Aber. FR interpretiert gerne ..." nur als .. und schon fehlt das zweite Gänsefüsschen. Bei meinem jetzigen Buch fehlen von Hause aus schon solche Zeichen.
Bei meinen Erkundungen im Netz stieß ich auf eine Methode die aber über Word führt (ich geh direkt von FR zu Sigil).
Dort wird über eine Makrosammlung (K-Lesehilfe) die Stimmigkeit der Anführungszeichen überprüft. Ausserdem werden auch suspekte Zeichen gesucht. Das hört sich ganz gut an, aber ... ich will den Weg über Word nicht gehen.
Gibt es eine Möglichkeit so eine Suche nach Stimmigkeit der Satzzeichen über regex zu machen?

pynch · 02-14-2017, 09:09 AM

Eine Regex-Suche stelle ich mir schwierig vor (bin aber kein Experte), allerdings könntest du, nachdem du Gruppen von drei Punkten in das entsprechende Zeichen verwandelt hast (»…«, beim PC mit Alt+0133) schauen, ob noch irgendwo Zweipunktgruppen übrig sind.

Das löst allerdings nicht das Problem der von Abbyy ebenfalls gern gelöschten »;“«.

Doitsu · 02-14-2017, 09:15 AM

Mir ist das Problem noch nicht ganz klar. Es wäre hilfreich, wenn Du gemeinfreie HTML-Dateien (oder epubs) anhängst, die zeigen:

a) Den Zustand vor SmartenPunctuation.
b) Den Zustand nach SmartenPunctuation.
c) Welche Satzzeichen-Kombinationen SmartenPunctuation nicht korrekt handhabt.

Quote:

Originally Posted by fromgdr

FR interpretiert gerne ..." nur als .. und schon fehlt das zweite Gänsefüsschen.

Was ist FR?

Quote:

Originally Posted by fromgdr

Dort wird über eine Makrosammlung (K-Lesehilfe) die Stimmigkeit der Anführungszeichen überprüft. Ausserdem werden auch suspekte Zeichen gesucht. Das hört sich ganz gut an, aber ... ich will den Weg über Word nicht gehen.

Eventuell ließe sich die Makrosammlung auf Python und/oder Regex umstricken.
Wo kann man sie denn herunterladen?

pynch · 02-14-2017, 10:11 AM

Quote:

Originally Posted by Doitsu

Was ist FR?

Abbyy FineReader, die Texterkennungssoftware.

fromgdr · 02-14-2017, 12:46 PM

Nein es sind mir bisher keine SmartenPunctuation-Probleme aufgefallen.
Er kann jedoch nur umwandeln was vorhanden ist. Wenn FR (FineReader) jedoch die Gänsefüsschen nicht erkennt oder weglässt kann er sie nicht umwandeln.
Hier soll diese Makrosammlung greifen. Es wird ein Anfangszeichen markiert und nun sucht die Routine nach dem abschließenden Zeichen, dann nach einem anführenden und dann nach einem abschließenden ...
Kommte es zu einer Unstimmigkeit stoppt es dort und man kann die Stelle suchen wo das fehlende Zeichen hinkommen sollte - aus dem Kontext, oder besser anhand des Originalscans. Das ist natürlich hilfreich wenn man ein (nahezu) fehlerfreies epub liefern will, es aber nicht lesen möchte.
Die Makro-Sammlung hab ich HIER mal kurz abgelegt. Ich hatte Probleme mit meinem 64bit Word2010. Eigentlich soll die ältere Version mit Word2010 funktionieren - aber nicht mit der 64er

Ansonsten soll es problemlos mit Word 2003 funktionieren.
Ich hab keine Ahnung von Makroerstellung und Phyton, und nur rudimentäre beim regexen.
Wenn man tatsächlich was "umstricken" kann wäre das toll.

Was habt ihr für Tricks um Fehler zu elemenieren, wenn ihr nicht selber Korrektur lesen wollt?

doubleshuffle · 02-14-2017, 01:08 PM

Letztendlich kommt man meiner Meinung nach ums Lesen nicht herum. Wenn alles Automatisierbare durch ist, gibt es immer noch die OCR-Fehler, die kein Rechtschreibprogramm findet, weil sie selber gültige Wörter sind.

brucewelch · 02-14-2017, 01:24 PM

Quote:

Originally Posted by doubleshuffle

Letztendlich kommt man meiner Meinung nach ums Lesen nicht herum. Wenn alles Automatisierbare durch ist, gibt es immer noch die OCR-Fehler, die kein Rechtschreibprogramm findet, weil sie selber gültige Wörter sind.

So iss es.

Nach Tonnen korrekturgelesener Bücher weiß ich: es bleiben auch dann noch beschämend viele Fehler stehen ...

fromgdr · 02-14-2017, 01:33 PM

Das sind auch meine bisherigen Erfahrungen.
Die epubs die ich bisher erstellt habe hab ich auch gelesen. Jetzt hab ich aber von Bekannten anfragen für Buchdigitalisierung bekommen, die mich inhaltlich nicht ansprechen. Nun möchte ich aber die Fehler möglichst gering halten. Deshalb suchte ich nach regexen und anderen Automatismen.

doubleshuffle · 02-14-2017, 01:58 PM

Quote:

Originally Posted by brucewelch

So iss es.

Nach Tonnen korrekturgelesener Bücher weiß ich: es bleiben auch dann noch beschämend viele Fehler stehen ...

Ja, so isses leider auch. Gerade hatte ich Station wo Nation hätte stehen sollen - und da sich die ganze Szene im Zug abspielte, klang Station nicht mal völlig unplausibel...

Quote:

Originally Posted by fromgdr

Das sind auch meine bisherigen Erfahrungen.
Die epubs die ich bisher erstellt habe hab ich auch gelesen. Jetzt hab ich aber von Bekannten anfragen für Buchdigitalisierung bekommen, die mich inhaltlich nicht ansprechen. Nun möchte ich aber die Fehler möglichst gering halten. Deshalb suchte ich nach regexen und anderen Automatismen.

Einfachste Lösung: Alles Automatisierbare selber machen (ich hätte auch nichts gegen einen guten Regex zum Auffinden von Anführungszeichenpaaren) und dann die Bekannten korrekturlesen lassen.

Doitsu · 02-14-2017, 02:54 PM

@fromgdr: Ich habe mir die Makrosammlung angesehen und feststellen müssen, dass sie viel komplexer ist als ich gedacht habe und deshalb leider nicht so auf die Schnelle nach Python konvertiert werden kann.

Quote:

Originally Posted by doubleshuffle

Letztendlich kommt man meiner Meinung nach ums Lesen nicht herum. Wenn alles Automatisierbare durch ist, gibt es immer noch die OCR-Fehler, die kein Rechtschreibprogramm findet, weil sie selber gültige Wörter sind.

Schamlose Schleichwerbung:

Manche dieser Fehler könntest Du mit meinem Sigil LanguageTool-Plugin und der optionalen Google N-Gram-Erweiterung finden, wenn eines der beiden Wörter Bestandteil einer Kollokation ist. Der Nachteil ist, dass man für die Google N-Gram-Fehlersuche einen schnellen Rechner mit viel Speicher und möglichst einer SSD-Festplatte braucht. (Es geht auch mit älteren Computern dauert aber viel länger.)

LanguageTool findet übrigens auch einige Fehler mit Anführungzeichen hat aber Probleme mit der alten Rechtschreibung.

Quote:

Originally Posted by doubleshuffle

[...] ich hätte auch nichts gegen einen guten Regex zum Auffinden von Anführungszeichenpaaren) und dann die Bekannten korrekturlesen lassen.

Es ist nicht so ganz einfach, eine allgemeingültige Regex zu basteln, die nicht zu viele falsche Positive erzeugt.
Wenn Du z.B. Absätze finden möchtest, die ein öffnendes Anführungszeichen enthalten, aber kein schließendes Anführungszeichen (oder umgekehrt), müsstest Du festlegen, wie weit die Regex suchen soll.
Soll sie bis zum nächsten Satzendzeichen (.?!), oder bis zum schließenden </p>/</span> suchen usw.

Ich habe übrigens vor einiger Zeit für Testzwecke ein internes Sigil-Regex-Plugin gebastelt, das man theoretisch ähnlich wie das ePubCheck-Plugin als benutzerdefinierten Validator verwenden könnte. Es hat eine Eingabemaske, in die man normale Zeichenfolgen oder reguläre Ausdrücke eingeben kann, nach denen das ePub durchsucht wird. (Alle gefundenen Zeilen werden im Sigil-Validierungs-Fenster angezeigt und man kann durch Klicken auf die jeweilige Meldung zur Fundstelle springen.) Bei allgemeinen Interesse könnte ich eine Testversion anhängen.

02-04-2017, 08:36 AM	#1517
pynch why in? Posts: 1,653 Karma: 30939132 Join Date: Apr 2012 Device: Sony PRS-350, Kobo Aura	Danke, “out of series” klingt sehr überzeugend. Die beiden Binnengroßstaben hatten mich rausgebracht.

02-04-2017, 08:45 AM	#1518
doubleshuffle Unicycle Daredevil Posts: 13,949 Karma: 185432100 Join Date: Jan 2011 Location: Planet of the Pudding Brains Device: Aura HD (R.I.P. After six years the USB socket died.) tolino shine 3	Ja, das klingt sehr gut. Wäre ich nicht draufgekommen. Könnte es allerdings sein, dass da dann gar keine Nummer mehr davor soll: "out of series" als "außer der Reihe", also ein Druck, der nicht zu den 250 Verkaufsexemplaren gehört?

02-04-2017, 09:06 AM	#1519
pynch why in? Posts: 1,653 Karma: 30939132 Join Date: Apr 2012 Device: Sony PRS-350, Kobo Aura	Stimmt, das “out of series” ersetzte die Nummern. Hier der betreffende Abschnitt aus der Bibliographie (in die reinzuschauen mir auch früher hätte einfallen können): “There is a preliminary state in which p. [5] is printed: ‘This edition is limited to (125)250 numbered copies, ….’ and in place of the number in purple ink ‘out of series’ is recorded in purple ink by Leonard Woolf. Leonard Woolf stated that this limited edition was heavily over-subscribed and that, probably after printing the free copies, it was decided to double the number of copies printed. The copies already printed, were altered as above, and the printed number 125 then changed to 250. The preliminary state probably comprises 25 copies which were distributed free. J. Howard Woolmer refers to copy No. 250 which he has seen and noted in his A Checklist of the Hogarth Press 1917-1938, London, The Hogarth Press, 1976, Item 245: it carries the altered limitation. It is possible, therefore, that the limitation of more than 25 copies was altered as above.”

02-05-2017, 06:50 AM	#1520
pynch why in? Posts: 1,653 Karma: 30939132 Join Date: Apr 2012 Device: Sony PRS-350, Kobo Aura	Die generalüberholte Virginia-Woolf-Ausgabe, von der ich sprach, ist jetzt übrigens online.

02-14-2017, 07:39 AM	#1521
fromgdr Enthusiast Posts: 40 Karma: 103746 Join Date: Apr 2014 Device: kindle paperwhite	Hallo (mal wieder), weiter vorn habt ihr mir mit den falschen Anführungszeichen geholfen. Das Sigil PunctuationSmarten-plugin funktioniert soweit ganz gut, aber ... Es gibt immer ein Aber. FR interpretiert gerne ..." nur als .. und schon fehlt das zweite Gänsefüsschen. Bei meinem jetzigen Buch fehlen von Hause aus schon solche Zeichen. Bei meinen Erkundungen im Netz stieß ich auf eine Methode die aber über Word führt (ich geh direkt von FR zu Sigil). Dort wird über eine Makrosammlung (K-Lesehilfe) die Stimmigkeit der Anführungszeichen überprüft. Ausserdem werden auch suspekte Zeichen gesucht. Das hört sich ganz gut an, aber ... ich will den Weg über Word nicht gehen. Gibt es eine Möglichkeit so eine Suche nach Stimmigkeit der Satzzeichen über regex zu machen?

02-14-2017, 09:09 AM	#1522
pynch why in? Posts: 1,653 Karma: 30939132 Join Date: Apr 2012 Device: Sony PRS-350, Kobo Aura	Eine Regex-Suche stelle ich mir schwierig vor (bin aber kein Experte), allerdings könntest du, nachdem du Gruppen von drei Punkten in das entsprechende Zeichen verwandelt hast (»…«, beim PC mit Alt+0133) schauen, ob noch irgendwo Zweipunktgruppen übrig sind. Das löst allerdings nicht das Problem der von Abbyy ebenfalls gern gelöschten »;“«.

02-14-2017, 12:46 PM	#1525
fromgdr Enthusiast Posts: 40 Karma: 103746 Join Date: Apr 2014 Device: kindle paperwhite	Nein es sind mir bisher keine SmartenPunctuation-Probleme aufgefallen. Er kann jedoch nur umwandeln was vorhanden ist. Wenn FR (FineReader) jedoch die Gänsefüsschen nicht erkennt oder weglässt kann er sie nicht umwandeln. Hier soll diese Makrosammlung greifen. Es wird ein Anfangszeichen markiert und nun sucht die Routine nach dem abschließenden Zeichen, dann nach einem anführenden und dann nach einem abschließenden ... Kommte es zu einer Unstimmigkeit stoppt es dort und man kann die Stelle suchen wo das fehlende Zeichen hinkommen sollte - aus dem Kontext, oder besser anhand des Originalscans. Das ist natürlich hilfreich wenn man ein (nahezu) fehlerfreies epub liefern will, es aber nicht lesen möchte. Die Makro-Sammlung hab ich HIER mal kurz abgelegt. Ich hatte Probleme mit meinem 64bit Word2010. Eigentlich soll die ältere Version mit Word2010 funktionieren - aber nicht mit der 64er Ansonsten soll es problemlos mit Word 2003 funktionieren. Ich hab keine Ahnung von Makroerstellung und Phyton, und nur rudimentäre beim regexen. Wenn man tatsächlich was "umstricken" kann wäre das toll. Was habt ihr für Tricks um Fehler zu elemenieren, wenn ihr nicht selber Korrektur lesen wollt?

02-14-2017, 01:08 PM	#1526
doubleshuffle Unicycle Daredevil Posts: 13,949 Karma: 185432100 Join Date: Jan 2011 Location: Planet of the Pudding Brains Device: Aura HD (R.I.P. After six years the USB socket died.) tolino shine 3	Letztendlich kommt man meiner Meinung nach ums Lesen nicht herum. Wenn alles Automatisierbare durch ist, gibt es immer noch die OCR-Fehler, die kein Rechtschreibprogramm findet, weil sie selber gültige Wörter sind.

02-14-2017, 01:33 PM	#1528
fromgdr Enthusiast Posts: 40 Karma: 103746 Join Date: Apr 2014 Device: kindle paperwhite	Das sind auch meine bisherigen Erfahrungen. Die epubs die ich bisher erstellt habe hab ich auch gelesen. Jetzt hab ich aber von Bekannten anfragen für Buchdigitalisierung bekommen, die mich inhaltlich nicht ansprechen. Nun möchte ich aber die Fehler möglichst gering halten. Deshalb suchte ich nach regexen und anderen Automatismen.