View Single Post
Old 12-18-2009, 03:20 PM   #16
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by Josch91 View Post
Wäre es möglich, wenn man einen Teil des Textes im rechten Abschnitt mit dem erkannten Text markiert, diese markierung auch in der Vorlage anzuzeigen. So wie im Anhang?
Möglich ja aber sehr schwierig. Wie ich schon vorher schrieb, ist Layout-Analyse leider nicht wirklich mein Fachgebiet. Ohne die Layout-Informationen bekomme ich so etwas nicht hin. Ich hoffe, dass sich da vielleicht noch der eine oder andere Entwickler zu Wort meldet...

Edit: Ich habe inzwischen herausgefunden wie ich Tesseract die ursprünglichen Positionen der Zeichen entlocken kann...vielleicht geht also da doch noch was....

Quote:
Originally Posted by mtravellerh View Post
Mir fällt gerade auf, dass Du im Korrekturfenster ganz konkrete Formatbefehle eingebut hast. Willst Du das dann als html exportieren oder wie?
Naja, ich brauche ja ein neutrales Zwischenformat (Tesseract selbst liefert ja nur Plain-Text) aus dem ich dann - je nachdem was der Benutzer für den Auftrag als Ausgabeformat gewählt hat - in XHTML oder RTF exportiere. Entweder werde ich dazu hocr verwenden (da bekomme ich auch die Layoutinformationen aus der Imageanalyse mit unter), oder gleich XHTML als internes Format nehmen.

Edit: Tessseract 3.0 wird wohl hocr-Ausgabe von Haus aus mitbringen also wären wir damit auf der sicheren Seite...

Last edited by netseeker; 12-18-2009 at 06:33 PM.
netseeker is offline   Reply With Quote