MobileRead Forums - View Single Post - Grafische Oberfläche für tesseract OCR

netseeker · 01-01-2010, 01:52 PM

Nachdem Textaurare heute sein erstes OCR-Project vollständig erzeugt, wieder geöffnet und korrekt dargestellt hat (ja, es geht voran, wenn auch ein wenig langsamer wie erhofft), habe ich mir ein paar alte Projekte angeschaut und dabei ist mir folgendes aufgefallen:
Ich habe noch ein paar Alghorithmen "herumliegen" um mehrspaltige PDF's (bzw. die Bilder davon) zu teilen und jede 2. Spalte auf eine weitere Einzelseite abzubilden.

Wäre es sinnvoll eine Option zum automatischen "Auftrennen" mehrspaltiger PDF's einzubauen? Das Originallayout wandert dann natürlich ins Nirvana aber andererseits ist der OCR-Output (aufgrund der fehlenden Layoutanalyse in Tesseract) ansonsten ohnehin nicht wirklich zu gebrauchen.

PS: Muss noch ein paar Bugs finden, dann gibt es wieder Screenshots!

01-01-2010, 01:52 PM	#22
netseeker sleepless reader Posts: 4,763 Karma: 615547 Join Date: Jan 2008 Location: Germany, near Stuttgart Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3	Nachdem Textaurare heute sein erstes OCR-Project vollständig erzeugt, wieder geöffnet und korrekt dargestellt hat (ja, es geht voran, wenn auch ein wenig langsamer wie erhofft), habe ich mir ein paar alte Projekte angeschaut und dabei ist mir folgendes aufgefallen: Ich habe noch ein paar Alghorithmen "herumliegen" um mehrspaltige PDF's (bzw. die Bilder davon) zu teilen und jede 2. Spalte auf eine weitere Einzelseite abzubilden. Wäre es sinnvoll eine Option zum automatischen "Auftrennen" mehrspaltiger PDF's einzubauen? Das Originallayout wandert dann natürlich ins Nirvana aber andererseits ist der OCR-Output (aufgrund der fehlenden Layoutanalyse in Tesseract) ansonsten ohnehin nicht wirklich zu gebrauchen. PS: Muss noch ein paar Bugs finden, dann gibt es wieder Screenshots!