Nachdem Textaurare heute sein erstes OCR-Project vollständig erzeugt, wieder geöffnet und korrekt dargestellt hat (ja, es geht voran, wenn auch ein wenig langsamer wie erhofft), habe ich mir ein paar alte Projekte angeschaut und dabei ist mir folgendes aufgefallen:
Ich habe noch ein paar Alghorithmen "herumliegen" um mehrspaltige PDF's (bzw. die Bilder davon) zu teilen und jede 2. Spalte auf eine weitere Einzelseite abzubilden.
Wäre es sinnvoll eine Option zum automatischen "Auftrennen" mehrspaltiger PDF's einzubauen? Das Originallayout wandert dann natürlich ins Nirvana aber andererseits ist der OCR-Output (aufgrund der fehlenden Layoutanalyse in Tesseract) ansonsten ohnehin nicht wirklich zu gebrauchen.
PS: Muss noch ein paar Bugs finden, dann gibt es wieder Screenshots!
|