View Single Post
Old 01-01-2010, 01:52 PM   #22
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Nachdem Textaurare heute sein erstes OCR-Project vollständig erzeugt, wieder geöffnet und korrekt dargestellt hat (ja, es geht voran, wenn auch ein wenig langsamer wie erhofft), habe ich mir ein paar alte Projekte angeschaut und dabei ist mir folgendes aufgefallen:
Ich habe noch ein paar Alghorithmen "herumliegen" um mehrspaltige PDF's (bzw. die Bilder davon) zu teilen und jede 2. Spalte auf eine weitere Einzelseite abzubilden.

Wäre es sinnvoll eine Option zum automatischen "Auftrennen" mehrspaltiger PDF's einzubauen? Das Originallayout wandert dann natürlich ins Nirvana aber andererseits ist der OCR-Output (aufgrund der fehlenden Layoutanalyse in Tesseract) ansonsten ohnehin nicht wirklich zu gebrauchen.

PS: Muss noch ein paar Bugs finden, dann gibt es wieder Screenshots!
netseeker is offline   Reply With Quote