View Single Post
Old 07-17-2016, 06:59 AM   #1422
Doitsu
Grand Sorcerer
Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.
 
Doitsu's Avatar
 
Posts: 5,748
Karma: 24032915
Join Date: Dec 2010
Device: Kindle PW2
Bessere Korrekturvorschläge in Sigil

Ich habe zufällig herausgefunden, dass man durch die Bearbeitung der Rechtschreibdateien, die Sigil verwendet, bessere Vorschläge für mit OCR erfasste Texte anzeigen kann.

Sigil verwendet für die Rechtschreibprüfung Hunspell-Wörterbücher, die u.a. auch in LibreOffice verwendet werden. Um bessere Vorschläge für Wörter zu bekommen, die typische OCR-Fehler enthalten (z.B. m anstatt von rn ) muss man nur einen Block in der AFF-Datei Datei mit einem Texteditor, z.B. Notepad+, bearbeiten.

Das funktioniert wie folgt:

Zuerst muss die Ordner finden, in denen Sigil nach Wörterbüchern sucht. Das geht am einfachsten, wenn +R drückt, die folgenden symbolischen Pfade einfügt und dann die Eingabetaste drückt.

Code:
%ProgramFiles%\Sigil\hunspell_dictionaries
Code:
%LOCALAPPDATA%\sigil-ebook\sigil\hunspell_dictionaries
Dann muss man die jeweilige AFF-Datei suchen und in einen anderen Ordner zum Bearbeiten kopieren. (Für Deutsch ist das normalerweise de_DE.aff oder de_DE_OLDSPELL.aff.)

In der AFF-Datei muss man den folgenden Block suchen und bearbeiten:

Spoiler:
Code:
REP 28
REP f ph
REP ph f
REP ß ss
REP ss ß
REP s ss
REP ss s
REP i ie
REP ie i
REP ee e
REP o oh
REP oh o
REP a ah
REP ah a
REP e eh
REP eh e
REP ae ä
REP oe ö
REP ue ü
REP Ae Ä
REP Oe Ö
REP Ue Ü
REP d t
REP t d
REP th t
REP t th
REP r rh
REP ch k
REP k ch
#REP eee ee-E


(Die erste Zeile definiert die Anzahl der folgenden Einträge, die das Format REP {alt} {neu} haben müssen.)

Ich habe diesen Abschnitt wie folgt geändert:

Spoiler:
Code:
REP 61
REP f ph
REP ph f
REP ß ss
REP ss ß
REP s ss
REP ss s
REP i ie
REP ie i
REP ee e
REP o oh
REP oh o
REP a ah
REP ah a
REP e eh
REP eh e
REP ae ä
REP oe ö
REP ue ü
REP Ae Ä
REP Oe Ö
REP Ue Ü
REP d t
REP t d
REP th t
REP t th
REP r rh
REP ch k
REP k ch
REP e c
REP c e
REP h b
REP b h
REP B ß
REP I l
REP l I
REP l L
REP L l
REP H ll
REP U ll
REP JI ll
REP H li
REP T li
REP h li
REP li h 
REP hn lm
REP lm hn
REP rn m
REP m rn
REP m in
REP m tn
REP in m
REP ri n
REP n ri
REP r f
REP im un
REP un im
REP n u
REP ii u
REP vv w
REP y v
REP v y


Mit diesen Änderungen bekommt man u.a. folgende Vorschläge:

heiden => beiden statt Heiden
hindem => hindern statt indem

Ich habe der Einfachheit halber aktualisierte Versionen von de_DE.aff und de_DE_OLDSPELL.aff angehängt.
Attached Files
File Type: zip de_DE_OLDSPELL.zip (6.6 KB, 1082 views)
File Type: zip de_DE.zip (4.3 KB, 1101 views)

Last edited by Doitsu; 07-26-2016 at 01:15 PM.
Doitsu is offline   Reply With Quote