Quote:
Originally Posted by Josch91
Wäre es möglich, wenn man einen Teil des Textes im rechten Abschnitt mit dem erkannten Text markiert, diese markierung auch in der Vorlage anzuzeigen. So wie im Anhang?
|
Möglich ja aber sehr schwierig. Wie ich schon vorher schrieb, ist Layout-Analyse leider nicht wirklich mein Fachgebiet.

Ohne die Layout-Informationen bekomme ich so etwas nicht hin. Ich hoffe, dass sich da vielleicht noch der eine oder andere Entwickler zu Wort meldet...
Edit: Ich habe inzwischen herausgefunden wie ich Tesseract die ursprünglichen Positionen der Zeichen entlocken kann...vielleicht geht also da doch noch was....
Quote:
Originally Posted by mtravellerh
Mir fällt gerade auf, dass Du im Korrekturfenster ganz konkrete Formatbefehle eingebut hast. Willst Du das dann als html exportieren oder wie?
|
Naja, ich brauche ja ein neutrales Zwischenformat (Tesseract selbst liefert ja nur Plain-Text) aus dem ich dann - je nachdem was der Benutzer für den Auftrag als Ausgabeformat gewählt hat - in XHTML oder RTF exportiere. Entweder werde ich dazu
hocr verwenden (da bekomme ich auch die Layoutinformationen aus der Imageanalyse mit unter), oder gleich XHTML als internes Format nehmen.
Edit: Tessseract 3.0 wird wohl hocr-Ausgabe von Haus aus mitbringen also wären wir damit auf der sicheren Seite...